Simulácia evolúcie: Ako jazykový model ESM3 transformuje vývoj bielkovín

Simulácia evolúcie: Ako jazykový model ESM3 transformuje vývoj bielkovín
5. novembra 2024

ESM3, nová umelá inteligencia (AI) vytvorená spoločnosťou EvolutionaryScale, americkou spoločnosťou založenou bývalými pracovníkmi Meta, môže navrhovať proteíny so špecifikovanými vlastnosťami, proces ktoré by normálne trvalo stovky miliónov rokov, kým by sa vyvinuli organickým spôsobom. Spoločnosť odhalila tento generatívny maskovaný jazykový model, jeden z najväčších biologických AI k dnešnému dňu, v nedávnej predtlači na BioRxiv. Schopnosť ESM3 súčasne produkovať sekvenciu aminokyselín, trojrozmernú štruktúru a funkciu proteínu v reakcii na konkrétne signály je jedinečná a otvára dvere pre použitie v materiálovom výskume, vývoji liekov a proteínov na ukladanie uhlíka.

Keďže proteíny sú mikroskopické biostroje nevyhnutné pre mnohé telesné procesy, vrátane tvorby svalov, vlasov a nechtov, ako aj produkcie hormónov a protilátok, ich trojrozmerná štruktúra má veľký biologický a farmakologický význam. Poznanie štruktúry proteínov pomáha pochopiť ich biologickú funkciu, vyhodnotiť ich vhodnosť ako terapeutické ciele a určiť ich účinnosť ako liečby. Proteíny sú stavebnými kameňmi niekoľkých život zachraňujúcich liekov, vrátane inzulínu a syntetických protilátok proti závažným respiračným infekciám, ako je RSV a rakovina. Namiesto namáhavého hľadania prirodzených variantov medicínsky výskum stále viac potrebuje vyrábať úplne nové proteíny s určitými vlastnosťami.

Na syntézu proteínov používa ESM3 EvolutionaryScale skrytý jazykový model, ktorý dokáže vyplniť medzery v rôznych kategóriách tak, že sa na kontext pozrie z rôznych uhlov pohľadu. Model používal samostatnú abecedu pre každú kategóriu (sekvenciu, 3D štruktúru a funkciu) a bol trénovaný na veľkom súbore údajov vrátane 2,8 miliardy aminokyselinových sekvencií, 236 miliónov proteínových štruktúr a 539 miliónov proteínových funkcií. Aby mohol model porozumieť kontextu v rámci týchto mnohých vrstiev aj medzi nimi, tím našiel spôsob, ako reprezentovať každú 3D štruktúru ako sériu postáv.

Startup poveril model úlohou vytvoriť syntetické verzie zeleného fluorescenčného proteínu (GFP), zodpovedného za prirodzene sa vyskytujúce svetlo v morských druhoch, ako sú koraly a medúzy, aby demonštroval potenciál ESM3. GFP, ktorý získal v roku 2008 Nobelovu cenu za chémiu, je základným proteínom v molekulárnej biológii, ktorý umožňuje vedcom identifikovať a sledovať zložky živých buniek. Hoci mal len 58% genetickú podobnosť so svojím prirodzeným náprotivkom, „esmGFP“, najlepší syntetický variant GFP produkovaný ESM3, mal vysoký jas porovnateľný s prirodzeným GFP. Podľa vedcov by vytvorenie tohto nového fluorescenčného proteínu bolo ekvivalentné napodobňovaniu viac ako 500 miliónov rokov evolúcie.

Hlavný vedec EvolutionaryScale Alex Rives sa podieľal na predchádzajúcich iteráciách modelu ESM v Meta. Tím sa rozhodol pokračovať v tejto štúdii sám po tom, čo Meta minulý rok prestala v tejto oblasti pracovať. Výsledkom je, že fluorescenčný proteín bol práve ohlásený a investovalo sa 142 miliónov dolárov na komercializáciu týchto pokrokov. Pre vedecký výskum bola sprístupnená aj menšia verzia EvolutionaryScale s otvoreným prístupom, ktorá však nie je plne funkčná. Kým bol Martin Pacesa z Ecole Polytechnique Fédérale de Lausanne nadšený z testovania modelu, spomínaný v rozhovore, že to bude trvať veľa výpočtového výkonu na reprodukciu plnej verzie.

Udržte si prehľad o najnovších technológiách a inováciách vďaka aktualizáciám od Code Labs Academy.

Code Labs Academy © 2025 Všetky práva vyhradené.