Simulación de la evolución: cómo el modelo de lenguaje ESM3 transforma el desarrollo de proteínas

Simulación de la evolución: cómo el modelo de lenguaje ESM3 transforma el desarrollo de proteínas
5 de noviembre de 2024

ESM3, una nueva inteligencia artificial (IA) creada por EvolutionaryScale, una empresa estadounidense fundada por ex trabajadores de Meta, puede diseñar proteínas con propiedades específicas, un proceso que normalmente tardaría cientos de millones de años en evolucionar de forma orgánica. La compañía dio a conocer este modelo de lenguaje generativo enmascarado, una de las IA biológicas más grandes hasta la fecha, en una preimpresión reciente en BioRxiv. La capacidad de ESM3 para producir simultáneamente la secuencia de aminoácidos, la estructura tridimensional y la función de una proteína en respuesta a señales particulares es única y abre la puerta a usos en la investigación de materiales, el desarrollo de fármacos y las proteínas de almacenamiento de carbono.

Dado que las proteínas son biomáquinas microscópicas vitales para muchos procesos corporales, incluida la formación de músculos, cabello y uñas, así como la producción de hormonas y anticuerpos, su estructura tridimensional es de gran importancia biológica y farmacológica. Conocer la estructura de las proteínas ayuda a comprender su función biológica, evaluar su elegibilidad como dianas terapéuticas y determinar su eficacia como tratamientos. Las proteínas son los componentes básicos de varios medicamentos que salvan vidas, incluida la insulina y los anticuerpos sintéticos contra infecciones respiratorias graves como el VRS y el cáncer. En lugar de buscar laboriosamente variantes naturales, la investigación médica necesita cada vez más producir proteínas completamente nuevas con determinadas características.

Para la síntesis de proteínas, ESM3 de EvolutionaryScale utiliza un modelo de lenguaje oculto que puede llenar los vacíos en varias categorías al observar el contexto desde diferentes ángulos. El modelo utilizó un alfabeto separado para cada categoría (secuencia, estructura 3D y función) y se entrenó en un gran conjunto de datos que incluía 2.800 millones de secuencias de aminoácidos, 236 millones de estructuras de proteínas y 539 millones de funciones de proteínas. Para permitir que el modelo comprenda el contexto tanto dentro como a través de estas muchas capas, el equipo encontró una manera de representar cada estructura 3D como una serie de personajes.

La startup encargó al modelo el desafío de crear versiones sintéticas de la proteína verde fluorescente (GFP), responsable de la luz natural en especies marinas como corales y medusas, para demostrar el potencial de ESM3. La GFP, que ganó el Premio Nobel de Química en 2008, es una proteína esencial en biología molecular que permite a los científicos identificar y rastrear componentes de células vivas. Aunque tenía sólo un 58% de parecido genético con su contraparte natural, "esmGFP", la mejor variante sintética de GFP producida por ESM3, tenía un alto brillo comparable al de la GFP natural. Según los investigadores, crear esta nueva proteína fluorescente equivaldría a imitar más de 500 millones de años de evolución.

El científico jefe de EvolutionaryScale, Alex Rives, participó en iteraciones anteriores del modelo ESM en Meta. El equipo decidió continuar este estudio solo después de que Meta dejara de trabajar en esta área el año pasado. Fruto de ello, se acaba de anunciar la proteína fluorescente y se han invertido 142 millones de dólares para comercializar estos avances. También se ha puesto a disposición una versión más pequeña y de acceso abierto de EvolutionaryScale para la investigación científica, pero no es completamente funcional. Si bien estaba entusiasmado por probar el modelo, Martin Pacesa de la Ecole Polytechnique Fédérale de Lausanne mencionó en una entrevista que tomaría un mucha potencia informática para reproducir la versión completa.

Manténgase al tanto de lo último en tecnología e innovación](https://codelabsacademy.com/news) con actualizaciones deCode Labs Academy.

Code Labs Academy © 2024 Todos los derechos reservados.