Simulering av evolusjon: Hvordan ESM3-språkmodellen transformerer proteinutvikling

Simulering av evolusjon: Hvordan ESM3-språkmodellen transformerer proteinutvikling
5. november 2024

ESM3, en ny kunstig intelligens (AI) laget av EvolutionaryScale, et amerikansk selskap grunnlagt av tidligere Meta-arbeidere, kan designe proteiner med spesifiserte egenskaper, en prosess som normalt vil ta hundrevis av millioner år å utvikle seg på en organisk måte. Selskapet avduket denne generative, maskerte språkmodellen, en av de største biologiske AI-ene til dags dato, i et nylig preprint på BioRxiv. Evnen til ESM3 til samtidig å produsere aminosyresekvensen, den tredimensjonale strukturen og funksjonen til et protein som respons på bestemte signaler, er unik og åpner døren for bruk i materialforskning, medikamentutviklingsmedisiner og karbonlagringsproteiner.

Siden proteiner er mikroskopiske biomaskiner som er avgjørende for mange kroppslige prosesser, inkludert dannelsen av muskler, hår og negler samt produksjon av hormoner og antistoffer, er deres tredimensjonale struktur av stor biologisk og farmakologisk betydning. Å kjenne strukturen til proteiner hjelper til med å forstå deres biologiske funksjon, vurdere deres kvalifikasjoner som terapeutiske mål og bestemme effektiviteten som behandling. Proteiner er byggesteinene i flere livreddende legemidler, inkludert insulin og syntetiske antistoffer mot alvorlige luftveisinfeksjoner som RSV og kreft. I stedet for møysommelig å lete etter naturlige varianter, trenger medisinsk forskning i økende grad å lage helt nye proteiner med visse egenskaper.

For proteinsyntese bruker EvolutionaryScales ESM3 en skjult språkmodell som kan fylle ut hullene i ulike kategorier ved å se på konteksten fra ulike vinkler. Modellen brukte et separat alfabet for hver kategori (sekvens, 3D-struktur og funksjon) og ble trent på et stort datasett inkludert 2,8 milliarder aminosyresekvenser, 236 millioner proteinstrukturer og 539 millioner proteinfunksjoner. For å gjøre det mulig for modellen å forstå konteksten både innenfor og på tvers av disse mange lagene, fant teamet en måte å representere hver 3D-struktur som en serie med karakterer.

Oppstarten ga modellen utfordringen med å lage syntetiske versjoner av grønt fluorescerende protein (GFP), ansvarlig for det naturlig forekommende lyset i marine arter som koraller og maneter, for å demonstrere potensialet til ESM3. GFP, som vant Nobelprisen i kjemi i 2008, er et essensielt protein i molekylærbiologi som lar forskere identifisere og spore komponenter i levende celler. Selv om den bare hadde 58% genetisk likhet med sin naturlige motpart, hadde "esmGFP", den fineste syntetiske varianten av GFP produsert av ESM3, en høy lysstyrke som kan sammenlignes med naturlig GFP. Ifølge forskerne vil å lage dette nye fluorescerende proteinet tilsvare å etterligne mer enn 500 millioner år med evolusjon.

EvolutionaryScale-sjefforsker Alex Rives var involvert i tidligere iterasjoner av ESM-modellen hos Meta. Teamet bestemte seg for å fortsette denne studien alene etter at Meta sluttet å jobbe på dette området i fjor. Som et resultat har det fluorescerende proteinet nettopp blitt annonsert og 142 millioner dollar er investert for å kommersialisere disse fremskrittene. En mindre versjon med åpen tilgang av EvolutionaryScale er også gjort tilgjengelig for vitenskapelig forskning, men den er ikke fullt funksjonell. Mens han var spent på å teste modellen, sa Martin Pacesa ved Ecole Polytechnique Fédérale de Lausanne nevnt i et intervju at det ville ta en mye datakraft for å reprodusere fullversjonen.

Hold deg oppdatert pådet siste innen teknologi og innovasjon med oppdateringer fraCode Labs Academy.

Code Labs Academy © 2025 Alle rettigheter forbeholdes.