Симуляція еволюції: як модель мови ESM3 трансформує розвиток білка

Симуляція еволюції: як модель мови ESM3 трансформує розвиток білка
5 листопада 2024 року

ESM3, новий штучний інтелект (ШІ), створений американською компанією EvolutionaryScale, заснованою колишніми працівниками Meta, може створювати білки з певними властивостями, процес які зазвичай потребують сотні мільйонів років, щоб еволюціонувати органічним шляхом. Компанія оприлюднила цю модель генеративної маскованої мови, один із найбільших біологічних ШІ на сьогоднішній день, у останньому препринті на BioRxiv. Здатність ESM3 одночасно виробляти послідовність амінокислот, тривимірну структуру та функції білка у відповідь на певні сигнали є унікальною та відкриває двері для використання в дослідженні матеріалів, розробці ліків і білках, що накопичують вуглець.

Оскільки білки є мікроскопічними біомашинами, життєво важливими для багатьох процесів організму, включаючи формування м’язів, волосся та нігтів, а також виробництво гормонів і антитіл, їх тривимірна структура має велике біологічне та фармакологічне значення. Знання структури білків допомагає зрозуміти їхню біологічну функцію, оцінити їхню придатність як терапевтичні мішені та визначити їх ефективність як лікування. Білки є будівельними блоками кількох рятівних ліків, включаючи інсулін і синтетичні антитіла проти серйозних респіраторних інфекцій, таких як RSV і рак. Замість кропіткого пошуку природних варіантів, медичні дослідження дедалі частіше потребують створення абсолютно нових білків з певними характеристиками.

Для синтезу білка ESM3 від EvolutionaryScale використовує приховану мовну модель, яка може заповнити прогалини в різних категоріях, дивлячись на контекст під різними кутами. Модель використовувала окремий алфавіт для кожної категорії (послідовність, тривимірна структура та функція) і була навчена на великому наборі даних, що включає 2,8 мільярда амінокислотних послідовностей, 236 мільйонів білкових структур і 539 мільйонів білкових функцій. Щоб дати змогу моделі зрозуміти контекст як всередині, так і між цими багатьма шарами, команда знайшла спосіб представити кожну 3D-структуру як серію символів.

Стартап доручив моделі створити синтетичні версії зеленого флуоресцентного білка (GFP), відповідального за природне світло у морських видів, таких як корали та медузи, щоб продемонструвати потенціал ESM3. GFP, який отримав Нобелівську премію з хімії 2008 року, є важливим білком у молекулярній біології, який дозволяє вченим ідентифікувати та відстежувати компоненти живих клітин. Хоча він мав лише 58% генетичної схожості зі своїм природним аналогом, «esmGFP», найкращий синтетичний варіант GFP, вироблений ESM3, мав високу яскравість, порівнянну з природною GFP. За словами дослідників, створення цього нового флуоресцентного білка було б еквівалентно імітації більш ніж 500 мільйонів років еволюції.

Головний науковий співробітник EvolutionaryScale Алекс Рівз брав участь у попередніх ітераціях моделі ESM у Meta. Команда вирішила продовжити це дослідження самостійно після того, як Meta припинила працювати в цій галузі минулого року. У результаті щойно було оголошено про флуоресцентний білок і інвестовано 142 мільйони доларів, щоб комерціалізувати ці досягнення. Менша версія EvolutionaryScale з відкритим доступом також була доступна для наукових досліджень, але вона не є повністю функціональною. Хоча він був у захваті від тестування моделі, Мартін Пачеза з Федеральної політехнічної школи Лозанни згадав в інтерв’ю, що для цього потрібно трохи багато обчислювальної потужності для відтворення повної версії.

Будьте в курсі найновіших технологій та інновацій з оновленнями відCode Labs Academy.

Code Labs Academy © 2025 Всі права захищені.