Simulering af evolution: Hvordan ESM3-sprogmodel transformerer proteinudvikling

Simulering af evolution: Hvordan ESM3-sprogmodel transformerer proteinudvikling
5. november 2024

ESM3, en ny kunstig intelligens (AI) skabt af EvolutionaryScale, et amerikansk firma grundlagt af tidligere Meta-arbejdere, kan designe proteiner med specificerede egenskaber, en proces der normalt ville tage hundreder af millioner af år at udvikle sig på en organisk måde. Virksomheden afslørede denne generative, maskerede sprogmodel, en af ​​de største biologiske AI'er til dato, i et nyligt fortryk på BioRxiv. Evnen af ​​ESM3 til samtidig at producere aminosyresekvensen, tredimensionelle struktur og funktion af et protein som svar på bestemte signaler er unik og åbner døren til brug i materialeforskning, lægemidler til udvikling af lægemidler og kulstoflagringsproteiner.

Da proteiner er mikroskopiske biomaskiner, vitale for mange kropslige processer, herunder dannelsen af ​​muskler, hår og negle samt produktion af hormoner og antistoffer, er deres tredimensionelle struktur af stor biologisk og farmakologisk betydning. At kende strukturen af ​​proteiner hjælper med at forstå deres biologiske funktion, evaluere deres egnethed som terapeutiske mål og bestemme deres effektivitet som behandlinger. Proteiner er byggestenene i adskillige livreddende lægemidler, herunder insulin og syntetiske antistoffer mod alvorlige luftvejsinfektioner som RSV og kræft. I stedet for møjsommeligt at søge efter naturlige varianter, skal medicinsk forskning i stigende grad lave helt nye proteiner med visse egenskaber.

Til proteinsyntese bruger EvolutionaryScales ESM3 en skjult sprogmodel, der kan udfylde hullerne i forskellige kategorier ved at se på konteksten fra forskellige vinkler. Modellen brugte et separat alfabet for hver kategori (sekvens, 3D-struktur og funktion) og blev trænet på et stort datasæt inklusive 2,8 milliarder aminosyresekvenser, 236 millioner proteinstrukturer og 539 millioner proteinfunktioner. For at gøre det muligt for modellen at forstå konteksten både inden for og på tværs af disse mange lag, fandt teamet en måde at repræsentere hver 3D-struktur som en række karakterer.

Opstarten gav modellen til opgave at skabe syntetiske versioner af grønt fluorescerende protein (GFP), der er ansvarlig for det naturligt forekommende lys i marine arter som koraller og vandmænd, for at demonstrere potentialet i ESM3. GFP, som vandt Nobelprisen i kemi i 2008, er et essentielt protein i molekylærbiologi, der gør det muligt for forskere at identificere og spore komponenter i levende celler. Selvom det kun havde 58% genetisk lighed med dets naturlige modstykke, havde "esmGFP", den fineste syntetiske variant af GFP produceret af ESM3, en høj lysstyrke sammenlignelig med naturlig GFP. Ifølge forskerne ville skabelsen af ​​dette nye fluorescerende protein svare til at efterligne mere end 500 millioner års evolution.

EvolutionaryScale-chefforsker Alex Rives var involveret i tidligere iterationer af ESM-modellen hos Meta. Holdet besluttede at fortsætte denne undersøgelse alene, efter at Meta stoppede med at arbejde på dette område sidste år. Som et resultat er det fluorescerende protein netop blevet annonceret, og $142 millioner er blevet investeret for at kommercialisere disse fremskridt. En mindre, open access-version af EvolutionaryScale er også blevet gjort tilgængelig for videnskabelig forskning, men den er ikke fuldt funktionsdygtig. Mens han var spændt på at teste modellen, sagde Martin Pacesa fra Ecole Polytechnique Fédérale de Lausanne nævnt i et interview, at det ville tage en masser af computerkraft til at gengive den fulde version.

Hold dig på forkant meddet seneste inden for teknologi og innovation med opdateringer fraCode Labs Academy.

Code Labs Academy © 2024 Alle rettigheder forbeholdes.