Simulering av evolution: Hur ESM3-språkmodellen transformerar proteinutveckling

Simulering av evolution: Hur ESM3-språkmodellen transformerar proteinutveckling
5 november 2024

ESM3, en ny artificiell intelligens (AI) skapad av EvolutionaryScale, ett amerikanskt företag grundat av före detta Meta-arbetare, kan designa proteiner med specificerade egenskaper, en process som normalt skulle ta hundratals miljoner år att utvecklas på ett organiskt sätt. Företaget presenterade denna generativa maskerade språkmodell, en av de största biologiska AI:erna hittills, i ett nyligen preprint på BioRxiv. Förmågan hos ESM3 att samtidigt producera aminosyrasekvensen, den tredimensionella strukturen och funktionen hos ett protein som svar på särskilda signaler är unik och öppnar dörren för användning inom materialforskning, läkemedelsutvecklingsläkemedel och kollagringsproteiner.

Eftersom proteiner är mikroskopiska biomaskiner som är avgörande för många kroppsliga processer, inklusive bildandet av muskler, hår och naglar samt produktion av hormoner och antikroppar, är deras tredimensionella struktur av stor biologisk och farmakologisk betydelse. Att känna till strukturen hos proteiner hjälper till att förstå deras biologiska funktion, utvärdera deras lämplighet som terapeutiska mål och bestämma deras effektivitet som behandlingar. Proteiner är byggstenarna i flera livräddande läkemedel, inklusive insulin och syntetiska antikroppar mot allvarliga luftvägsinfektioner som RSV och cancer. Istället för att mödosamt söka efter naturliga varianter behöver medicinsk forskning i allt högre grad göra helt nya proteiner med vissa egenskaper.

För proteinsyntes använder EvolutionaryScales ESM3 en dold språkmodell som kan fylla i luckorna i olika kategorier genom att titta på sammanhanget från olika vinklar. Modellen använde ett separat alfabet för varje kategori (sekvens, 3D-struktur och funktion) och tränades på ett stort dataset inklusive 2,8 miljarder aminosyrasekvenser, 236 miljoner proteinstrukturer och 539 miljoner proteinfunktioner. För att göra det möjligt för modellen att förstå sammanhang både inom och över dessa många lager, hittade teamet ett sätt att representera varje 3D-struktur som en serie karaktärer.

Uppstarten gav modellen i uppdrag att skapa syntetiska versioner av grönt fluorescerande protein (GFP), ansvarigt för det naturligt förekommande ljuset i marina arter som koraller och maneter, för att demonstrera potentialen hos ESM3. GFP, som vann 2008 års Nobelpris i kemi, är ett viktigt protein inom molekylärbiologi som gör det möjligt för forskare att identifiera och spåra komponenter i levande celler. Även om den bara hade 58% genetisk likhet med sin naturliga motsvarighet, hade "esmGFP", den finaste syntetiska varianten av GFP som produceras av ESM3, en hög ljusstyrka jämförbar med den för naturlig GFP. Enligt forskarna skulle skapa detta nya fluorescerande protein vara likvärdigt med att efterlikna mer än 500 miljoner år av evolution.

EvolutionaryScale chefsforskare Alex Rives var involverad i tidigare iterationer av ESM-modellen på Meta. Teamet bestämde sig för att fortsätta denna studie ensam efter att Meta slutade arbeta inom detta område förra året. Som ett resultat har det fluorescerande proteinet precis tillkännagivits och 142 miljoner dollar har investerats för att kommersialisera dessa framsteg. En mindre, öppen åtkomstversion av EvolutionaryScale har också gjorts tillgänglig för vetenskaplig forskning, men den är inte fullt fungerande. Medan han var exalterad över att testa modellen, sa Martin Pacesa från Ecole Polytechnique Fédérale de Lausanne omnämnd i en intervju att det skulle ta en mycket datorkraft för att återskapa den fullständiga versionen.

Håll koll på detsenaste inom teknik och innovation med uppdateringar frånCode Labs Academy.

Code Labs Academy © 2025 Alla rättigheter förbehållna.