Simulasi Evolusi: Bagaimana Model Bahasa ESM3 Mengubah Perkembangan Protein

Simulasi Evolusi: Bagaimana Model Bahasa ESM3 Mengubah Perkembangan Protein
5 November 2024

ESM3, kecerdasan buatan (AI) baru yang dibuat oleh EvolutionaryScale, sebuah perusahaan AS yang didirikan oleh mantan pekerja Meta, dapat merancang protein dengan sifat tertentu, sebuah proses yang biasanya memerlukan waktu ratusan juta tahun untuk berevolusi secara organik. Perusahaan ini meluncurkan model bahasa bertopeng generatif ini, salah satu AI biologis terbesar hingga saat ini, dalam pracetak terbaru di BioRxiv. Kemampuan ESM3 untuk secara bersamaan menghasilkan urutan asam amino, struktur tiga dimensi dan fungsi protein sebagai respons terhadap sinyal tertentu adalah unik dan membuka pintu untuk digunakan dalam penelitian bahan, pengembangan obat, dan protein penyimpan karbon.

Karena protein adalah mesin biologis mikroskopis yang penting untuk banyak proses tubuh, termasuk pembentukan otot, rambut dan kuku serta produksi hormon dan antibodi, struktur tiga dimensinya sangat penting secara biologis dan farmakologis. Mengetahui struktur protein membantu memahami fungsi biologisnya, mengevaluasi kelayakannya sebagai target terapi, dan menentukan efektivitasnya sebagai pengobatan. Protein adalah bahan dasar dari beberapa obat yang menyelamatkan jiwa, termasuk insulin dan antibodi sintetik untuk melawan infeksi saluran pernapasan serius seperti RSV dan kanker. Daripada bersusah payah mencari varian alami, penelitian medis semakin perlu membuat protein baru dengan karakteristik tertentu.

Untuk sintesis protein, ESM3 EvolutionaryScale menggunakan model bahasa tersembunyi yang dapat mengisi kesenjangan dalam berbagai kategori dengan melihat konteks dari sudut yang berbeda. Model ini menggunakan alfabet terpisah untuk setiap kategori (urutan, struktur dan fungsi 3D) dan dilatih pada kumpulan data besar termasuk 2,8 miliar rangkaian asam amino, 236 juta struktur protein, dan 539 juta fungsi protein. Untuk memungkinkan model memahami konteks baik di dalam maupun di seluruh lapisan ini, tim menemukan cara untuk merepresentasikan setiap struktur 3D sebagai rangkaian karakter.

Startup ini menugaskan model tersebut dengan tantangan untuk menciptakan versi sintetis dari protein fluoresen hijau (GFP), yang bertanggung jawab atas cahaya alami pada spesies laut seperti karang dan ubur-ubur, untuk menunjukkan potensi ESM3. GFP, yang memenangkan Hadiah Nobel Kimia pada tahun 2008, adalah protein penting dalam biologi molekuler yang memungkinkan para ilmuwan mengidentifikasi dan melacak komponen sel hidup. Meskipun hanya memiliki 58% kemiripan genetik dengan versi alaminya, “esmGFP”, varian GFP sintetik terbaik yang diproduksi oleh ESM3, memiliki kecerahan tinggi yang sebanding dengan GFP alami. Menurut para peneliti, menciptakan protein fluoresen baru ini setara dengan meniru evolusi selama lebih dari 500 juta tahun.

Kepala Ilmuwan EvolutionaryScale Alex Rives terlibat dalam iterasi model ESM sebelumnya di Meta. Tim memutuskan untuk melanjutkan penelitian ini sendiri setelah Meta berhenti bekerja di bidang ini tahun lalu. Hasilnya, protein fluoresen baru saja diumumkan dan $142 juta telah diinvestasikan untuk mengkomersialkan kemajuan ini. Versi EvolutionaryScale yang lebih kecil dan akses terbuka juga telah tersedia untuk penelitian ilmiah, tetapi tidak berfungsi penuh. Saat ia bersemangat untuk menguji model tersebut, Martin Pacesa dari Ecole Polytechnique Fédérale de Lausanne disebutkan dalam sebuah wawancara bahwa hal itu akan memerlukan waktu yang lama banyak daya komputasi untuk mereproduksi versi lengkap.

Terus ikuti perkembanganteknologi dan inovasi terkini dengan pembaruan dariCode Labs Academy.

Code Labs Academy © 2024 Semua hak dilindungi undang-undang.