Simulació de l'evolució: com el model de llenguatge ESM3 transforma el desenvolupament de proteïnes

Simulació de l'evolució: com el model de llenguatge ESM3 transforma el desenvolupament de proteïnes
5 de novembre de 2024

ESM3, una nova intel·ligència artificial (IA) creada per EvolutionaryScale, una empresa nord-americana fundada per antics treballadors de Meta, pot dissenyar proteïnes amb propietats especificades, un procés que normalment trigarien centenars de milions d'anys a evolucionar de manera orgànica. La companyia va donar a conèixer aquest model de llenguatge emmascarat generatiu, una de les IA biològiques més grans fins ara, en una preimpressió recent a BioRxiv. La capacitat d'ESM3 de produir simultàniament la seqüència d'aminoàcids, l'estructura tridimensional i la funció d'una proteïna en resposta a senyals particulars és única i obre la porta a usos en investigació de materials, fàrmacs de desenvolupament de fàrmacs i proteïnes d'emmagatzematge de carboni.

Com que les proteïnes són biomàquines microscòpiques vitals per a molts processos corporals, inclosa la formació de músculs, cabells i ungles, així com la producció d'hormones i anticossos, la seva estructura tridimensional té una gran importància biològica i farmacològica. Conèixer l'estructura de les proteïnes ajuda a entendre la seva funció biològica, avaluar la seva elegibilitat com a dianes terapèutiques i determinar la seva eficàcia com a tractaments. Les proteïnes són els components bàsics de diversos fàrmacs que poden salvar vides, com ara la insulina i els anticossos sintètics contra infeccions respiratòries greus com el VRS i el càncer. En lloc de buscar laboriosament variants naturals, la investigació mèdica necessita cada cop més fer proteïnes completament noves amb determinades característiques.

Per a la síntesi de proteïnes, l'ESM3 d'EvolutionaryScale utilitza un model de llenguatge ocult que pot omplir els buits en diverses categories mirant el context des de diferents angles. El model va utilitzar un alfabet separat per a cada categoria (seqüència, estructura 3D i funció) i es va entrenar en un gran conjunt de dades que inclou 2.800 milions de seqüències d'aminoàcids, 236 milions d'estructures de proteïnes i 539 milions de funcions de proteïnes. Per permetre que el model entengui el context tant dins com entre aquestes moltes capes, l'equip va trobar una manera de representar cada estructura 3D com una sèrie de personatges.

La startup va encarregar al model el repte de crear versions sintètiques de proteïna fluorescent verda (GFP), responsable de la llum natural en espècies marines com els coralls i les meduses, per demostrar el potencial d'ESM3. GFP, que va guanyar el Premi Nobel de Química 2008, és una proteïna essencial en biologia molecular que permet als científics identificar i fer un seguiment dels components de les cèl·lules vives. Tot i que només tenia una semblança genètica del 58% amb el seu homòleg natural, "esmGFP", la millor variant sintètica de GFP produïda per ESM3, tenia una gran brillantor comparable a la de la GFP natural. Segons els investigadors, crear aquesta nova proteïna fluorescent equivaldria a imitar més de 500 milions d'anys d'evolució.

El científic en cap d'EvolutionaryScale, Alex Rives, va participar en iteracions anteriors del model ESM a Meta. L'equip va decidir continuar aquest estudi en solitari després que Meta deixés de treballar en aquesta àrea l'any passat. Com a resultat, s'acaba d'anunciar la proteïna fluorescent i s'han invertit 142 milions de dòlars per comercialitzar aquests avenços. També s'ha posat a disposició una versió més petita i d'accés obert d'EvolutionaryScale per a la investigació científica, però no és completament funcional. Tot i que estava emocionat de provar el model, Martin Pacesa de l'Ecole Polytechnique Fédérale de Lausanne esmentat en una entrevista que faria falta molta potència de càlcul per reproduir la versió completa.

Manteniu-vos al dia de lesúltimes novetats en tecnologia i innovació amb les actualitzacions deCode Labs Academy.

Code Labs Academy © 2024 Tots els drets reservats.