Simulando a evolución: como o modelo da linguaxe ESM3 transforma o desenvolvemento das proteínas

Simulando a evolución: como o modelo da linguaxe ESM3 transforma o desenvolvemento das proteínas
5 de novembro de 2024

ESM3, unha nova intelixencia artificial (IA) creada por EvolutionaryScale, unha empresa estadounidense fundada por antigos traballadores de Meta, pode deseñar proteínas con propiedades especificadas, un proceso que normalmente tardarían centos de millóns de anos en evolucionar dun xeito orgánico. A compañía presentou este modelo xenerativo de linguaxe enmascarada, unha das IA biolóxicas máis grandes ata a data, nunha preimpresión recente sobre BioRxiv. A capacidade de ESM3 para producir simultaneamente a secuencia de aminoácidos, a estrutura tridimensional e a función dunha proteína en resposta a sinais particulares é única e abre a porta a usos na investigación de materiais, medicamentos para o desenvolvemento de fármacos e proteínas de almacenamento de carbono.

Dado que as proteínas son biomáquinas microscópicas vitais para moitos procesos corporais, incluíndo a formación de músculos, cabelos e uñas, así como a produción de hormonas e anticorpos, a súa estrutura tridimensional é de gran importancia biolóxica e farmacolóxica. Coñecer a estrutura das proteínas axuda a comprender a súa función biolóxica, avaliar a súa elixibilidade como dianas terapéuticas e determinar a súa eficacia como tratamentos. As proteínas son os bloques de construción de varios medicamentos que salvan vidas, incluíndo a insulina e os anticorpos sintéticos contra infeccións respiratorias graves como o VRS e o cancro. En lugar de buscar laboriosamente variantes naturais, a investigación médica necesita cada vez máis facer proteínas totalmente novas con certas características.

Para a síntese de proteínas, o ESM3 de EvolutionaryScale usa un modelo de linguaxe oculto que pode cubrir as lagoas en varias categorías mirando o contexto desde diferentes ángulos. O modelo utilizou un alfabeto separado para cada categoría (secuencia, estrutura 3D e función) e foi adestrado nun gran conxunto de datos que inclúe 2.800 millóns de secuencias de aminoácidos, 236 millóns de estruturas de proteínas e 539 millóns de funcións proteicas. Para que o modelo comprenda o contexto tanto dentro como a través destas moitas capas, o equipo atopou unha forma de representar cada estrutura 3D como unha serie de personaxes.

A startup encargou ao modelo o reto de crear versións sintéticas da proteína verde fluorescente (GFP), responsable da luz natural en especies mariñas como os corais e as medusas, para demostrar o potencial de ESM3. GFP, que gañou o Premio Nobel de Química 2008, é unha proteína esencial en bioloxía molecular que permite aos científicos identificar e rastrexar compoñentes das células vivas. Aínda que só tiña un 58% de semellanza xenética coa súa contraparte natural, "esmGFP", a mellor variante sintética de GFP producida por ESM3, tiña un alto brillo comparable ao da GFP natural. Segundo os investigadores, crear esta nova proteína fluorescente equivalería a imitar máis de 500 millóns de anos de evolución.

O científico xefe de EvolutionaryScale, Alex Rives, estivo implicado en iteracións anteriores do modelo ESM en Meta. O equipo decidiu continuar este estudo en solitario despois de que Meta deixase de traballar neste ámbito o ano pasado. Como resultado, a proteína fluorescente acaba de ser anunciada e investiuse 142 millóns de dólares para comercializar estes avances. Unha versión máis pequena e de acceso aberto de EvolutionaryScale tamén estivo dispoñible para a investigación científica, pero non é totalmente funcional. Aínda que estaba emocionado de probar o modelo, Martin Pacesa da Ecole Polytechnique Fédérale de Lausanne mencionado nunha entrevista moita potencia de computación para reproducir a versión completa.

Mantente ao día das últimas novidades en tecnoloxía e innovación coas actualizacións deCode Labs Academy.

Code Labs Academy © 2025 Todos os dereitos reservados.