Simulace evoluce: Jak jazykový model ESM3 transformuje vývoj proteinů

Simulace evoluce: Jak jazykový model ESM3 transformuje vývoj proteinů
5. listopadu 2024

ESM3, nová umělá inteligence (AI) vytvořená EvolutionaryScale, americkou společností založenou bývalými pracovníky Meta, může navrhovat proteiny se specifikovanými vlastnostmi, proces které by normálně trvalo stovky milionů let, než by se vyvíjely organickým způsobem. Společnost odhalila tento generativní maskovaný jazykový model, jednu z největších biologických AI k dnešnímu dni, v nedávném předtisku na BioRxiv. Schopnost ESM3 současně produkovat aminokyselinovou sekvenci, trojrozměrnou strukturu a funkci proteinu v reakci na konkrétní signály je jedinečná a otevírá dveře k použití ve výzkumu materiálů, vývoji léků a proteinů pro ukládání uhlíku.

Vzhledem k tomu, že proteiny jsou mikroskopické biostroje nezbytné pro mnoho tělesných procesů, včetně tvorby svalů, vlasů a nehtů, stejně jako produkce hormonů a protilátek, má jejich trojrozměrná struktura velký biologický a farmakologický význam. Znalost struktury proteinů pomáhá porozumět jejich biologické funkci, vyhodnotit jejich způsobilost jako terapeutické cíle a určit jejich účinnost jako léčby. Proteiny jsou stavebními kameny několika život zachraňujících léků, včetně inzulínu a syntetických protilátek proti závažným respiračním infekcím, jako je RSV a rakovina. Namísto pracného hledání přírodních variant potřebuje lékařský výzkum stále více vyrábět zcela nové proteiny s určitými vlastnostmi.

Pro syntézu proteinů používá ESM3 EvolutionaryScale skrytý jazykový model, který dokáže vyplnit mezery v různých kategoriích tím, že se podívá na kontext z různých úhlů. Model používal samostatnou abecedu pro každou kategorii (sekvenci, 3D strukturu a funkci) a byl trénován na rozsáhlém datovém souboru zahrnujícím 2,8 miliardy aminokyselinových sekvencí, 236 milionů proteinových struktur a 539 milionů proteinových funkcí. Aby mohl model porozumět kontextu jak v rámci těchto mnoha vrstev, tak napříč těmito vrstvami, našel tým způsob, jak reprezentovat každou 3D strukturu jako sérii postav.

Startup zadal modelu úkol vytvořit syntetické verze zeleného fluorescenčního proteinu (GFP), odpovědného za přirozeně se vyskytující světlo u mořských druhů, jako jsou korály a medúzy, aby demonstroval potenciál ESM3. GFP, který získal v roce 2008 Nobelovu cenu za chemii, je základním proteinem v molekulární biologii, který umožňuje vědcům identifikovat a sledovat složky živých buněk. Ačkoli měl pouze 58% genetickou podobnost se svým přirozeným protějškem, „esmGFP“, nejlepší syntetická varianta GFP produkovaná ESM3, měla vysoký jas srovnatelný s přirozeným GFP. Podle vědců by vytvoření tohoto nového fluorescenčního proteinu odpovídalo napodobování více než 500 milionů let evoluce.

Hlavní vědec EvolutionaryScale Alex Rives se podílel na předchozích iteracích modelu ESM ve společnosti Meta. Tým se rozhodl v této studii pokračovat sám poté, co Meta loni přestala v této oblasti pracovat. Výsledkem je, že fluorescenční protein byl právě oznámen a bylo investováno 142 milionů dolarů na komercializaci těchto pokroků. Pro vědecký výzkum byla zpřístupněna i menší verze EvolutionaryScale s otevřeným přístupem, která však není plně funkční. Zatímco byl Martin Pacesa z Ecole Polytechnique Fédérale de Lausanne nadšený z testování modelu, zmíněno v rozhovoru, že to bude trvat velký výpočetní výkon pro reprodukci plné verze.

Udržte si přehled o nejnovějších technologiích a inovacích díky aktualizacím zCode Labs Academy.

Code Labs Academy © 2024 Všechna práva vyhrazena.