Simulando a evolução: como o modelo de linguagem ESM3 transforma o desenvolvimento de proteínas

Simulando a evolução: como o modelo de linguagem ESM3 transforma o desenvolvimento de proteínas
5 de novembro de 2024

ESM3, uma nova inteligência artificial (IA) criada pela EvolutionaryScale, uma empresa norte-americana fundada por ex-trabalhadores da Meta, pode projetar proteínas com propriedades específicas, um processo que normalmente levaria centenas de milhões de anos para evoluir de forma orgânica. A empresa revelou esse modelo de linguagem generativa mascarada, uma das maiores IAs biológicas até o momento, em uma pré-impressão recente no BioRxiv. A capacidade do ESM3 de produzir simultaneamente a sequência de aminoácidos, a estrutura tridimensional e a função de uma proteína em resposta a sinais específicos é única e abre a porta para uso em pesquisa de materiais, desenvolvimento de medicamentos e proteínas de armazenamento de carbono.

Dado que as proteínas são biomáquinas microscópicas vitais para muitos processos corporais, incluindo a formação de músculos, cabelos e unhas, bem como a produção de hormonas e anticorpos, a sua estrutura tridimensional é de grande importância biológica e farmacológica. Conhecer a estrutura das proteínas ajuda a compreender a sua função biológica, avaliar a sua elegibilidade como alvos terapêuticos e determinar a sua eficácia como tratamentos. As proteínas são os blocos de construção de vários medicamentos que salvam vidas, incluindo a insulina e anticorpos sintéticos contra infecções respiratórias graves, como o VSR e o cancro. Em vez de procurar laboriosamente variantes naturais, a investigação médica necessita cada vez mais de produzir proteínas inteiramente novas com determinadas características.

Para a síntese de proteínas, o ESM3 da EvolutionaryScale usa um modelo de linguagem oculta que pode preencher as lacunas em várias categorias, observando o contexto de diferentes ângulos. O modelo usou um alfabeto separado para cada categoria (sequência, estrutura 3D e função) e foi treinado em um grande conjunto de dados incluindo 2,8 bilhões de sequências de aminoácidos, 236 milhões de estruturas proteicas e 539 milhões de funções proteicas. Para permitir que o modelo entenda o contexto dentro e entre essas muitas camadas, a equipe encontrou uma maneira de representar cada estrutura 3D como uma série de personagens.

A startup encarregou o modelo do desafio de criar versões sintéticas da proteína fluorescente verde (GFP), responsável pela luz que ocorre naturalmente em espécies marinhas como corais e águas-vivas, para demonstrar o potencial do ESM3. A GFP, que ganhou o Prêmio Nobel de Química de 2008, é uma proteína essencial na biologia molecular que permite aos cientistas identificar e rastrear componentes de células vivas. Embora tivesse apenas 58% de semelhança genética com o seu homólogo natural, o “esmGFP”, a melhor variante sintética da GFP produzida pelo ESM3, tinha um brilho elevado comparável ao da GFP natural. Segundo os investigadores, a criação desta nova proteína fluorescente equivaleria a imitar mais de 500 milhões de anos de evolução.

O cientista-chefe da EvolutionaryScale, Alex Rives, esteve envolvido em iterações anteriores do modelo ESM na Meta. A equipe decidiu continuar este estudo sozinha depois que Meta parou de trabalhar nesta área no ano passado. Como resultado, a proteína fluorescente acaba de ser anunciada e foram investidos US$ 142 milhões para comercializar esses avanços. Uma versão menor e de acesso aberto do EvolutionaryScale também foi disponibilizada para pesquisa científica, mas não é totalmente funcional. Embora estivesse entusiasmado para testar o modelo, Martin Pacesa, da Ecole Polytechnique Fédérale de Lausanne mencionou em uma entrevista que levaria um tempo muito poder de computação para reproduzir a versão completa.

Fique por dentro dasúltimas novidades em tecnologia e inovação com atualizações deCode Labs Academy.

Code Labs Academy © 2024 Todos os direitos reservados.