5 novembre 2024
ESM3, une nouvelle intelligence artificielle (IA) créée par EvolutionaryScale, une société américaine fondée par d'anciens travailleurs de Meta, peut concevoir des protéines avec des propriétés spécifiées, un processus cela prendrait normalement des centaines de millions d’années pour évoluer de manière organique. La société a dévoilé ce modèle de langage masqué génératif, l'une des plus grandes IA biologiques à ce jour, dans une préimpression récente sur BioRxiv. La capacité d'ESM3 à produire simultanément la séquence d'acides aminés, la structure tridimensionnelle et la fonction d'une protéine en réponse à des signaux particuliers est unique et ouvre la porte à des utilisations dans la recherche sur les matériaux, le développement de médicaments et les protéines de stockage de carbone.
Puisque les protéines sont des biomachines microscopiques vitales pour de nombreux processus corporels, notamment la formation des muscles, des cheveux et des ongles ainsi que la production d’hormones et d’anticorps, leur structure tridimensionnelle revêt une grande importance biologique et pharmacologique. Connaître la structure des protéines permet de comprendre leur fonction biologique, d’évaluer leur éligibilité en tant que cibles thérapeutiques et de déterminer leur efficacité en tant que traitements. Les protéines sont les éléments constitutifs de plusieurs médicaments vitaux, notamment l’insuline et les anticorps synthétiques contre les infections respiratoires graves comme le VRS et le cancer. Au lieu de rechercher laborieusement des variantes naturelles, la recherche médicale doit de plus en plus produire des protéines entièrement nouvelles présentant certaines caractéristiques.
Pour la synthèse des protéines, l'ESM3 d'EvolutionaryScale utilise un modèle de langage caché qui peut combler les lacunes de diverses catégories en examinant le contexte sous différents angles. Le modèle utilisait un alphabet distinct pour chaque catégorie (séquence, structure 3D et fonction) et a été formé sur un vaste ensemble de données comprenant 2,8 milliards de séquences d'acides aminés, 236 millions de structures protéiques et 539 millions de fonctions protéiques. Pour permettre au modèle de comprendre le contexte à la fois au sein et à travers ces nombreuses couches, l'équipe a trouvé un moyen de représenter chaque structure 3D comme une série de personnages.
La startup a chargé le modèle de relever le défi de créer des versions synthétiques de la protéine fluorescente verte (GFP), responsable de la lumière naturelle chez les espèces marines comme les coraux et les méduses, afin de démontrer le potentiel de l'ESM3. La GFP, qui a remporté le prix Nobel de chimie 2008, est une protéine essentielle en biologie moléculaire qui permet aux scientifiques d'identifier et de suivre les composants des cellules vivantes. Bien qu'il n'ait qu'une ressemblance génétique de 58 % avec son homologue naturel, « esmGFP », la variante synthétique la plus fine de la GFP produite par ESM3, avait une luminosité élevée comparable à celle de la GFP naturelle. Selon les chercheurs, créer cette nouvelle protéine fluorescente équivaudrait à mimer plus de 500 millions d’années d’évolution.
Alex Rives, scientifique en chef d'EvolutionaryScale, a été impliqué dans les itérations précédentes du modèle ESM chez Meta. L'équipe a décidé de poursuivre cette étude seule après que Meta ait cessé de travailler dans ce domaine l'année dernière. Ainsi, la protéine fluorescente vient d’être annoncée et 142 millions de dollars ont été investis pour commercialiser ces avancées. Une version plus petite et en libre accès d'EvolutionaryScale a également été mise à disposition pour la recherche scientifique, mais elle n'est pas entièrement fonctionnelle. Alors qu'il était impatient de tester le modèle, Martin Pacesa de l'Ecole Polytechnique Fédérale de Lausanne mentionné dans une interview qu'il faudrait un beaucoup de puissance de calcul pour reproduire la version complète.
Restez au courant des dernières technologies et innovations grâce aux mises à jour deCode Labs Academy.