Symulowanie ewolucji: jak model języka ESM3 przekształca rozwój białek

Symulowanie ewolucji: jak model języka ESM3 przekształca rozwój białek
5 listopada 2024 r

ESM3, nowa sztuczna inteligencja (AI) stworzona przez EvolutionaryScale, amerykańską firmę założoną przez byłych pracowników Meta, może projektować białka o określonych właściwościach, proces których ewolucja w sposób organiczny zwykle zajęłaby setki milionów lat. Firma zaprezentowała ten generatywny model języka zamaskowanego, jedną z największych dotychczas biologicznych sztucznej inteligencji, w niedawnym przeddruku na stronie BioRxiv. Zdolność ESM3 do jednoczesnego wytwarzania sekwencji aminokwasów, trójwymiarowej struktury i funkcji białka w odpowiedzi na określone sygnały jest wyjątkowa i otwiera drzwi do zastosowań w badaniach materiałowych, opracowywaniu leków i białkach magazynujących węgiel.

Ponieważ białka są mikroskopijnymi biomaszynami niezbędnymi do wielu procesów zachodzących w organizmie, w tym do tworzenia mięśni, włosów i paznokci, a także do produkcji hormonów i przeciwciał, ich trójwymiarowa struktura ma ogromne znaczenie biologiczne i farmakologiczne. Znajomość struktury białek pomaga zrozumieć ich funkcję biologiczną, ocenić ich przydatność jako celów terapeutycznych i określić ich skuteczność w leczeniu. Białka są elementami składowymi kilku leków ratujących życie, w tym insuliny i syntetycznych przeciwciał przeciwko poważnym infekcjom dróg oddechowych, takim jak RSV i rak. Zamiast mozolnie szukać naturalnych wariantów, badania medyczne coraz częściej wymagają opracowania zupełnie nowych białek o określonych cechach.

Do syntezy białek narzędzie ESM3 firmy EvolutionaryScale wykorzystuje model języka ukrytego, który może wypełnić luki w różnych kategoriach, patrząc na kontekst pod różnymi kątami. W modelu zastosowano oddzielny alfabet dla każdej kategorii (sekwencja, struktura 3D i funkcja) i uczono go na dużym zbiorze danych obejmującym 2,8 miliarda sekwencji aminokwasów, 236 milionów struktur białkowych i 539 milionów funkcji białkowych. Aby umożliwić modelowi zrozumienie kontekstu zarówno w obrębie tych wielu warstw, jak i pomiędzy nimi, zespół znalazł sposób na przedstawienie każdej struktury 3D w postaci serii znaków.

Startup postawił modelowi wyzwanie polegające na stworzeniu syntetycznych wersji białka zielonej fluorescencji (GFP), odpowiedzialnego za naturalnie występujące światło u gatunków morskich, takich jak koralowce i meduzy, aby zademonstrować potencjał ESM3. GFP, które w 2008 roku zdobyło Nagrodę Nobla w dziedzinie chemii, jest białkiem niezbędnym w biologii molekularnej, które umożliwia naukowcom identyfikację i śledzenie składników żywych komórek. Chociaż podobieństwo genetyczne do swojego naturalnego odpowiednika wynosiło jedynie 58%, „esmGFP”, najdoskonalszy syntetyczny wariant GFP wytwarzany przez ESM3, charakteryzował się wysoką jasnością porównywalną z naturalnym GFP. Według naukowców stworzenie tego nowego białka fluorescencyjnego byłoby równoznaczne z naśladowaniem ponad 500 milionów lat ewolucji.

Główny naukowiec EvolutionaryScale, Alex Rives, był zaangażowany w poprzednie iteracje modelu ESM w Meta. Zespół zdecydował się kontynuować badanie samodzielnie po tym, jak Meta zaprzestała w zeszłym roku pracy w tym obszarze. W rezultacie właśnie ogłoszono opracowanie białka fluorescencyjnego i zainwestowano 142 miliony dolarów w komercjalizację tych osiągnięć. Do badań naukowych udostępniono także mniejszą, ogólnodostępną wersję EvolutionaryScale, ale nie jest ona w pełni funkcjonalna. Martin Pacesa z Ecole Polytechnique Fédérale de Lausanne był podekscytowany możliwością przetestowania modelu wspomniał w wywiadzie, że zajmie to trochę czasu dużo mocy obliczeniowej do odtworzenia pełnej wersji.

Bądź na bieżąco z najnowszymi technologiami i innowacjami dzięki aktualizacjom z Code Labs Academy.

Code Labs Academy © 2024 Wszelkie prawa zastrzeżone.