進化のシミュレーション: ESM3 言語モデルがタンパク質開発をどのように変革するか

進化のシミュレーション: ESM3 言語モデルがタンパク質開発をどのように変革するか
2024 年 11 月 5 日

ESM3 は、元メタ労働者によって設立された米国企業 EevolutionaryScale によって作成された新しい人工知能 (AI) で、指定された特性、プロセスを備えたタンパク質を設計できます。通常、有機的に進化するには何億年もかかります。同社は、これまでで最大の生物学的 AI の 1 つであるこの生成マスク言語モデルを BioRxiv の最近のプレプリント で発表しました。特定のシグナルに応答してタンパク質のアミノ酸配列、三次元構造、機能を同時に生成する ESM3 の能力はユニークであり、材料研究、創薬薬、炭素貯蔵タンパク質での使用への扉を開きます。

タンパク質は、筋肉、髪、爪の形成、ホルモンや抗体の生成など、多くの身体プロセスに不可欠な微細なバイオマシンであるため、その三次元構造は生物学的および薬理学的に非常に重要です。タンパク質の構造を知ることは、その生物学的機能を理解し、治療標的としての適格性を評価し、治療としての有効性を判断するのに役立ちます。タンパク質は、RSV やがんなどの重篤な呼吸器感染症に対するインスリンや合成抗体など、いくつかの救命薬の構成要素です。医学研究では、天然の変異体を苦労して探す代わりに、特定の特性を持つまったく新しいタンパク質を作成する必要性がますます高まっています。

タンパク質合成の場合、EvolutionScale の ESM3 は、コンテキストをさまざまな角度から見ることでさまざまなカテゴリのギャップを埋めることができる隠し言語モデルを使用します。このモデルは、カテゴリ (配列、3D 構造、機能) ごとに個別のアルファベットを使用し、28 億のアミノ酸配列、2 億 3,600 万のタンパク質構造、5 億 3,900 万のタンパク質機能を含む大規模なデータセットでトレーニングされました。モデルがこれらの多くのレイヤー内およびレイヤー全体のコンテキストを理解できるようにするために、チームは各 3D 構造を一連の文字として表現する方法を見つけました。

このスタートアップ企業は、ESM3 の可能性を実証するために、サンゴやクラゲなどの海洋生物に自然発生する光の原因となる緑色蛍光タンパク質 (GFP) の合成バージョンを作成するという課題をモデルに課しました。 2008 年にノーベル化学賞を受賞した GFP は、科学者が生きた細胞の成分を特定し、追跡することを可能にする分子生物学において必須のタンパク質です。 ESM3によって生成されるGFPの最も優れた合成変異体である「esmGFP」は、天然の対応物との遺伝的類似性は58%しかありませんでしたが、天然のGFPに匹敵する高い輝度を持っていました。研究者らによると、この新しい蛍光タンパク質の作成は、5億年以上の進化を模倣することに相当するという。

EEvolutionScale の主任研究員 Alex Rives は、Meta での ESM モデルの以前の反復に関与していました。メタが昨年この分野での活動を中止した後、研究チームは単独でこの研究を続けることを決定した。その結果、蛍光タンパク質が発表されたばかりで、これらの進歩を商業化するために 1 億 4,200 万ドルが投資されました。 EvolutionScale の小規模なオープンアクセス バージョンも科学研究向けに提供されていますが、完全に機能するわけではありません。エコール・ポリテクニック・フェデラーレ・ド・ローザンヌのマーティン・パセサ氏は、このモデルをテストすることに興奮していたが、インタビューで言及すると、モデルをテストするには時間がかかるだろうと述べた。完全版を再現するには多くの計算能力が必要です。

Code Labs Academy からの最新情報で、最新のテクノロジーとイノベーション を常に把握してください。

Code Labs Academy © 2024 無断転載を禁じます.