Simularea evoluției: cum modelul de limbaj ESM3 transformă dezvoltarea proteinelor

Simularea evoluției: cum modelul de limbaj ESM3 transformă dezvoltarea proteinelor
5 noiembrie 2024

ESM3, o nouă inteligență artificială (AI) creată de EvolutionaryScale, o companie americană fondată de foști lucrători Meta, poate proiecta proteine ​​cu proprietăți specificate, un proces care ar dura în mod normal sute de milioane de ani pentru a evolua într-un mod organic. Compania a dezvăluit acest model generativ de limbaj mascat, unul dintre cele mai mari IA biologice de până acum, într-o preprint recentă pe BioRxiv. Capacitatea ESM3 de a produce simultan secvența de aminoacizi, structura tridimensională și funcția unei proteine ​​ca răspuns la anumite semnale este unică și deschide ușa utilizărilor în cercetarea materialelor, medicamentele de dezvoltare a medicamentelor și proteinele de stocare a carbonului.

Deoarece proteinele sunt biomașini microscopice vitale pentru multe procese corporale, inclusiv formarea mușchilor, părului și unghiilor, precum și producerea de hormoni și anticorpi, structura lor tridimensională are o mare importanță biologică și farmacologică. Cunoașterea structurii proteinelor ajută la înțelegerea funcției lor biologice, la evaluarea eligibilității lor ca ținte terapeutice și la determinarea eficacității lor ca tratamente. Proteinele sunt elementele de bază ale mai multor medicamente care salvează vieți, inclusiv insulina și anticorpii sintetici împotriva infecțiilor respiratorii grave precum RSV și cancerul. În loc să caute laborios variante naturale, cercetarea medicală trebuie din ce în ce mai mult să producă proteine ​​complet noi, cu anumite caracteristici.

Pentru sinteza proteinelor, ESM3 de la EvolutionaryScale folosește un model de limbaj ascuns care poate umple golurile din diferite categorii, privind contextul din unghiuri diferite. Modelul a folosit un alfabet separat pentru fiecare categorie (secvență, structură 3D și funcție) și a fost antrenat pe un set de date mare care include 2,8 miliarde de secvențe de aminoacizi, 236 milioane structuri de proteine ​​și 539 milioane de funcții proteice. Pentru a permite modelului să înțeleagă contextul atât în ​​interiorul cât și peste aceste multe straturi, echipa a găsit o modalitate de a reprezenta fiecare structură 3D ca o serie de personaje.

Startup-ul a însărcinat modelul cu provocarea de a crea versiuni sintetice de proteine ​​​​verzi fluorescente (GFP), responsabile de lumina naturală la speciile marine precum coralii și meduze, pentru a demonstra potențialul ESM3. GFP, care a câștigat Premiul Nobel pentru Chimie în 2008, este o proteină esențială în biologia moleculară, care permite oamenilor de știință să identifice și să urmărească componentele celulelor vii. Deși avea doar o asemănare genetică de 58% cu omologul său natural, „esmGFP”, cea mai bună variantă sintetică de GFP produsă de ESM3, avea o luminozitate ridicată comparabilă cu cea a GFP naturală. Potrivit cercetătorilor, crearea acestei noi proteine ​​fluorescente ar echivala cu imitarea a peste 500 de milioane de ani de evoluție.

Omul de știință al EvolutionaryScale Alex Rives a fost implicat în iterațiile anterioare ale modelului ESM la Meta. Echipa a decis să continue acest studiu singură, după ce Meta a încetat să mai lucreze în acest domeniu anul trecut. Drept urmare, proteina fluorescentă tocmai a fost anunțată și s-au investit 142 de milioane de dolari pentru a comercializa aceste progrese. O versiune mai mică, cu acces deschis, a EvolutionaryScale a fost, de asemenea, disponibilă pentru cercetarea științifică, dar nu este complet funcțională. În timp ce era încântat să testeze modelul, Martin Pacesa de la Ecole Polytechnique Fédérale de Lausanne menționat într-un interviu că ar fi nevoie de un multă putere de calcul pentru a reproduce versiunea completă.

Rămâneți la curent cucele mai recente în tehnologie și inovație cu actualizări de laCode Labs Academy.

Code Labs Academy © 2025 Toate drepturile rezervate.