模拟进化:ESM3 语言模型如何改变蛋白质开发

模拟进化:ESM3 语言模型如何改变蛋白质开发
2024 年 11 月 5 日

ESM3,由前 Meta 员工创办的美国公司 EvolutionaryScale 创建的新型人工智能 (AI),可以设计具有指定属性的蛋白质,这是一个过程通常需要数亿年才能以有机方式进化。该公司在 BioRxiv 最近的预印本 中推出了这种生成屏蔽语言模型,这是迄今为止最大的生物人工智能之一。 ESM3 响应特定信号同时产生蛋白质的氨基酸序列、三维结构和功能的能力是独一无二的,为材料研究、药物开发药物和碳储存蛋白质的应用打开了大门。

由于蛋白质是对许多身体过程至关重要的微观生物机器,包括肌肉、头发和指甲的形成以及激素和抗体的产生,因此它们的三维结构具有重要的生物学和药理学重要性。了解蛋白质的结构有助于了解它们的生物学功能,评估它们作为治疗靶点的资格,并确定它们作为治疗的有效性。蛋白质是多种救生药物的组成部分,包括胰岛素和针对 RSV 和癌症等严重呼吸道感染的合成抗体。医学研究不再需要费力地寻找自然变异,而是越来越需要制造具有某些特征的全新蛋白质。

对于蛋白质合成,EvolutionaryScale 的 ESM3 使用隐藏语言模型,可以通过从不同角度查看上下文来填补各种类别中的空白。该模型对每个类别(序列、3D 结构和功能)使用单独的字母表,并在包括 28 亿个氨基酸序列、2.36 亿个蛋白质结构和 5.39 亿个蛋白质功能的大型数据集上进行训练。为了使模型能够理解这些层内和层间的上下文,团队找到了一种将每个 3D 结构表示为一系列字符的方法。

该初创公司为该模型设计了一个挑战,即创建绿色荧光蛋白 (GFP) 的合成版本,该蛋白负责珊瑚和水母等海洋物种自然产生的光,以展示 ESM3 的潜力。 GFP 获得了 2008 年诺贝尔化学奖,是分子生物学中的一种重要蛋白质,使科学家能够识别和跟踪活细胞的成分。虽然与天然 GFP 的遗传相似度只有 58%,但 ESM3 生产的 GFP 的最佳合成变体“esmGFP”具有与天然 GFP 相当的高亮度。研究人员表示,创造这种新的荧光蛋白相当于模仿 5 亿多年的进化过程。

EvolutionaryScale 首席科学家 Alex Rives 参与了 Meta 的 ESM 模型的先前迭代。去年Meta停止在这一领域的工作后,该团队决定单独继续这项研究。因此,荧光蛋白刚刚发布,并已投资 1.42 亿美元将这些进步商业化。 EvolutionaryScale 的一个较小的开放获取版本也已可用于科学研究,但它的功能并不完整。虽然他对测试该模型感到兴奋,但洛桑联邦理工学院的 Martin Pacesa 在采访中提到 表示,这需要大量的计算能力来重现完整版本。

随时掌握最新技术和创新,了解来自Code Labs Academy的更新。

Code Labs Academy © 2024 版权所有.