Моделирование эволюции: как языковая модель ESM3 преобразует разработку белка

Моделирование эволюции: как языковая модель ESM3 преобразует разработку белка
5 ноября 2024 г.

ESM3, новый искусственный интеллект (ИИ), созданный EvolutionaryScale, американской компанией, основанной бывшими работниками Meta, может создавать белки с заданными свойствами. для органического развития этого обычно потребуются сотни миллионов лет. Компания представила эту модель генеративного замаскированного языка, один из крупнейших биологических ИИ на сегодняшний день, в недавнем препринте BioRxiv. Способность ESM3 одновременно создавать аминокислотную последовательность, трехмерную структуру и функцию белка в ответ на определенные сигналы уникальна и открывает двери для использования в исследованиях материалов, разработке лекарств и белках-хранилищах углерода.

Поскольку белки представляют собой микроскопические биомашины, жизненно важные для многих процессов организма, включая формирование мышц, волос и ногтей, а также выработку гормонов и антител, их трехмерная структура имеет большое биологическое и фармакологическое значение. Знание структуры белков помогает понять их биологическую функцию, оценить их пригодность в качестве терапевтических целей и определить их эффективность в качестве лечения. Белки являются строительными блоками нескольких жизненно важных лекарств, включая инсулин и синтетические антитела против серьезных респираторных инфекций, таких как РСВ и рак. Вместо кропотливого поиска природных вариантов медицинские исследования все чаще требуют создания совершенно новых белков с определенными характеристиками.

Для синтеза белка ESM3 от EvolutionaryScale использует скрытую языковую модель, которая может заполнить пробелы в различных категориях, рассматривая контекст под разными углами. Модель использовала отдельный алфавит для каждой категории (последовательность, трехмерная структура и функция) и была обучена на большом наборе данных, включающем 2,8 миллиарда аминокислотных последовательностей, 236 миллионов белковых структур и 539 миллионов белковых функций. Чтобы модель могла понимать контекст как внутри, так и между этими многочисленными слоями, команда нашла способ представить каждую трехмерную структуру в виде серии символов.

Стартап поставил перед моделью задачу создания синтетических версий зеленого флуоресцентного белка (GFP), ответственного за естественный свет морских видов, таких как кораллы и медузы, чтобы продемонстрировать потенциал ESM3. GFP, получивший в 2008 году Нобелевскую премию по химии, представляет собой важный белок в молекулярной биологии, который позволяет ученым идентифицировать и отслеживать компоненты живых клеток. Хотя он имел лишь 58% генетическое сходство со своим природным аналогом, «esmGFP», лучший синтетический вариант GFP, производимый ESM3, имел высокую яркость, сравнимую с яркостью природного GFP. По мнению исследователей, создание этого нового флуоресцентного белка было бы эквивалентно имитации более чем 500 миллионов лет эволюции.

Главный научный сотрудник EvolutionaryScale Алекс Райвс участвовал в предыдущих версиях модели ESM в Meta. Команда решила продолжить это исследование в одиночку после того, как Мета прекратила работу в этой области в прошлом году. В результате только что было объявлено о флуоресцентном белке, и в коммерциализацию этих достижений было инвестировано 142 миллиона долларов. Уменьшенная версия EvolutionaryScale с открытым доступом также была доступна для научных исследований, но она не полностью функциональна. Хотя Мартин Пачеса из Федеральной политехнической школы Лозанны с нетерпением ждал возможности протестировать модель, упомянул в интервью, что для этого потребуется много вычислительной мощности для воспроизведения полной версии.

Будьте в курсе последних достижений в области технологий и инноваций благодаря обновлениям от Code Labs Academy.

Code Labs Academy © 2025 Все права защищены.