Simulering van evolusie: Hoe ESM3-taalmodel proteïenontwikkeling transformeer

Simulering van evolusie: Hoe ESM3-taalmodel proteïenontwikkeling transformeer
5 November 2024

ESM3, 'n nuwe kunsmatige intelligensie (KI) geskep deur EvolutionaryScale, 'n Amerikaanse maatskappy wat deur voormalige Meta-werkers gestig is, kan proteïene ontwerp met spesifieke eienskappe, 'n proses wat normaalweg honderde miljoene jare sou neem om op 'n organiese manier te ontwikkel. Die maatskappy het hierdie generatiewe gemaskerde taalmodel, een van die grootste biologiese KI's tot nog toe, in 'n onlangse voordruk op BioRxiv onthul. Die vermoë van ESM3 om terselfdertyd die aminosuurvolgorde, driedimensionele struktuur en funksie van 'n proteïen in reaksie op bepaalde seine te produseer, is uniek en maak die deur oop vir gebruike in materiaalnavorsing, geneesmiddelontwikkelingsmiddels en koolstofbergingsproteïene.

Aangesien proteïene mikroskopiese biomasjiene is wat noodsaaklik is vir baie liggaamlike prosesse, insluitend die vorming van spiere, hare en naels asook die produksie van hormone en teenliggaampies, is hul driedimensionele struktuur van groot biologiese en farmakologiese belang. Om die struktuur van proteïene te ken, help om hul biologiese funksie te verstaan, hul geskiktheid as terapeutiese teikens te evalueer en hul doeltreffendheid as behandelings te bepaal. Proteïene is die boustene van verskeie lewensreddende middels, insluitend insulien en sintetiese teenliggaampies teen ernstige respiratoriese infeksies soos RSV en kanker. In plaas daarvan om moeisaam na natuurlike variante te soek, moet mediese navorsing toenemend heeltemal nuwe proteïene met sekere eienskappe maak.

Vir proteïensintese gebruik EvolutionaryScale se ESM3 'n versteekte taalmodel wat die gapings in verskeie kategorieë kan aanvul deur na die konteks vanuit verskillende hoeke te kyk. Die model het 'n aparte alfabet vir elke kategorie (volgorde, 3D-struktuur en funksie) gebruik en is opgelei op 'n groot datastel wat 2.8 miljard aminosuurvolgordes, 236 miljoen proteïenstrukture en 539 miljoen proteïenfunksies insluit. Om die model in staat te stel om konteks binne sowel as oor hierdie baie lae te verstaan, het die span 'n manier gevind om elke 3D-struktuur as 'n reeks karakters voor te stel.

Die begin het die model die uitdaging gegee om sintetiese weergawes van groen fluoresserende proteïen (GFP) te skep, verantwoordelik vir die natuurlik voorkomende lig in mariene spesies soos korale en jellievisse, om die potensiaal van ESM3 te demonstreer. GFP, wat die 2008 Nobelprys in Chemie gewen het, is 'n noodsaaklike proteïen in molekulêre biologie wat wetenskaplikes in staat stel om komponente van lewende selle te identifiseer en op te spoor. Alhoewel dit slegs 'n 58% genetiese ooreenkoms met sy natuurlike eweknie gehad het, het "esmGFP," die beste sintetiese variant van GFP wat deur ESM3 vervaardig word, 'n hoë helderheid gehad wat vergelykbaar is met dié van natuurlike GFP. Volgens die navorsers sal die skep van hierdie nuwe fluoresserende proteïen gelykstaande wees aan die nabootsing van meer as 500 miljoen jaar van evolusie.

EvolutionaryScale Hoofwetenskaplike Alex Rives was betrokke by vorige iterasies van die ESM-model by Meta. Die span het besluit om hierdie studie alleen voort te sit nadat Meta verlede jaar opgehou het om in hierdie area te werk. Gevolglik is die fluoresserende proteïen pas aangekondig en $142 miljoen is belê om hierdie vooruitgang te kommersialiseer. ’n Kleiner, ooptoegangsweergawe van EvolutionaryScale is ook vir wetenskaplike navorsing beskikbaar gestel, maar dit is nie ten volle funksioneel nie. Terwyl hy opgewonde was om die model te toets, het Martin Pacesa van die Ecole Polytechnique Fédérale de Lausanne in 'n onderhoud genoem dat dit 'n baie rekenaarkrag om die volledige weergawe weer te gee.

Bly op hoogte van diejongste in tegnologie en innovasie met opdaterings vanCode Labs Academy.

Code Labs Academy © 2024 Alle regte voorbehou.