Simulation der Evolution: Wie das ESM3-Sprachmodell die Proteinentwicklung verändert

Simulation der Evolution: Wie das ESM3-Sprachmodell die Proteinentwicklung verändert
5. November 2024

ESM3, eine neue künstliche Intelligenz (KI), die von EvolutionaryScale, einem von ehemaligen Meta-Mitarbeitern gegründeten US-Unternehmen, entwickelt wurde, kann Proteine ​​mit bestimmten Eigenschaften entwerfen, einen Prozess Normalerweise würde es Hunderte von Millionen Jahren dauern, bis es sich auf organische Weise entwickelt. Das Unternehmen stellte dieses generative maskierte Sprachmodell, eine der bislang größten biologischen KIs, in einem [aktuellen Vorabdruck auf BioRxiv] vor (https://www.biorxiv.org/content/10.1101/2024.07.01.600583v1.full). Die Fähigkeit von ESM3, als Reaktion auf bestimmte Signale gleichzeitig die Aminosäuresequenz, die dreidimensionale Struktur und die Funktion eines Proteins zu erzeugen, ist einzigartig und öffnet die Tür für Anwendungen in der Materialforschung, der Arzneimittelentwicklung und bei Kohlenstoffspeicherproteinen.

Da es sich bei Proteinen um mikroskopisch kleine Biomaschinen handelt, die für viele Körperprozesse lebenswichtig sind, darunter die Bildung von Muskeln, Haaren und Nägeln sowie die Produktion von Hormonen und Antikörpern, ist ihre dreidimensionale Struktur von großer biologischer und pharmakologischer Bedeutung. Die Kenntnis der Struktur von Proteinen hilft, ihre biologische Funktion zu verstehen, ihre Eignung als therapeutische Ziele zu bewerten und ihre Wirksamkeit als Behandlung zu bestimmen. Proteine ​​sind die Bausteine ​​mehrerer lebensrettender Medikamente, darunter Insulin und synthetische Antikörper gegen schwere Atemwegsinfektionen wie RSV und Krebs. Statt aufwändig nach natürlichen Varianten zu suchen, muss die medizinische Forschung immer häufiger völlig neue Proteine ​​mit bestimmten Eigenschaften herstellen.

Für die Proteinsynthese verwendet ESM3 von EvolutionaryScale ein verstecktes Sprachmodell, das die Lücken in verschiedenen Kategorien schließen kann, indem es den Kontext aus verschiedenen Blickwinkeln betrachtet. Das Modell verwendete für jede Kategorie (Sequenz, 3D-Struktur und Funktion) ein eigenes Alphabet und wurde anhand eines großen Datensatzes trainiert, der 2,8 Milliarden Aminosäuresequenzen, 236 Millionen Proteinstrukturen und 539 Millionen Proteinfunktionen umfasste. Damit das Modell den Kontext sowohl innerhalb als auch über diese vielen Schichten hinweg verstehen kann, hat das Team eine Möglichkeit gefunden, jede 3D-Struktur als eine Reihe von Zeichen darzustellen.

Das Startup beauftragte das Modell mit der Herausforderung, synthetische Versionen des grün fluoreszierenden Proteins (GFP) zu entwickeln, das für das natürlich vorkommende Licht in Meereslebewesen wie Korallen und Quallen verantwortlich ist, um das Potenzial von ESM3 zu demonstrieren. GFP, das 2008 mit dem Nobelpreis für Chemie ausgezeichnet wurde, ist ein essentielles Protein in der Molekularbiologie, das es Wissenschaftlern ermöglicht, Bestandteile lebender Zellen zu identifizieren und zu verfolgen. Obwohl es nur eine genetische Ähnlichkeit von 58 % mit seinem natürlichen Gegenstück aufwies, hatte „esmGFP“, die feinste synthetische Variante von GFP, die von ESM3 produziert wurde, eine hohe Helligkeit, die mit der von natürlichem GFP vergleichbar war. Den Forschern zufolge käme die Schaffung dieses neuen fluoreszierenden Proteins einer Nachahmung von mehr als 500 Millionen Jahren Evolution gleich.

Der Chefwissenschaftler von EvolutionaryScale, Alex Rives, war an früheren Iterationen des ESM-Modells bei Meta beteiligt. Das Team beschloss, diese Studie alleine weiterzuführen, nachdem Meta letztes Jahr seine Arbeit in diesem Bereich eingestellt hatte. Infolgedessen wurde das fluoreszierende Protein gerade angekündigt und 142 Millionen US-Dollar wurden in die Kommerzialisierung dieser Fortschritte investiert. Für die wissenschaftliche Forschung wurde auch eine kleinere Open-Access-Version von EvolutionaryScale zur Verfügung gestellt, die jedoch nicht voll funktionsfähig ist. Martin Pacesa von der Ecole Polytechnique Fédérale de Lausanne erwähnte in einem Interview, dass es eine Weile dauern würde, während er sich darauf freute, das Modell zu testen viel Rechenleistung, um die Vollversion zu reproduzieren.

Bleiben Sie auf dem neuesten Stand in Sachen Technologie und Innovation (https://codelabsacademy.com/news) mit Updates von Code Labs Academy.

Code Labs Academy © 2024 Alle Rechte vorbehalten.