Simulating Evolution: Paano Binabago ng ESM3 Language Modelo ang Protein Development

Simulating Evolution: Paano Binabago ng ESM3 Language Modelo ang Protein Development
Nobyembre 5, 2024

ESM3, isang bagong artificial intelligence (AI) na nilikha ng EvolutionaryScale, isang kumpanya sa US na itinatag ng mga dating manggagawa sa Meta, ay maaaring magdisenyo ng mga protina na may mga partikular na katangian, isang proseso. na karaniwang tumatagal ng daan-daang milyong taon upang mag-evolve sa isang organikong paraan. Inilabas ng kumpanya ang generative masked language model na ito, isa sa pinakamalaking biological AI hanggang ngayon, sa isang recent preprint sa BioRxiv. Ang kakayahan ng ESM3 na sabay-sabay na makagawa ng pagkakasunud-sunod ng amino acid, tatlong-dimensional na istraktura at paggana ng isang protina bilang tugon sa mga partikular na signal ay natatangi at nagbubukas ng pinto upang magamit sa pananaliksik ng mga materyales, mga gamot sa pagpapaunlad ng droga at mga protina ng carbon storage.

Dahil ang mga protina ay mga microscopic biomachine na mahalaga para sa maraming proseso sa katawan, kabilang ang pagbuo ng mga kalamnan, buhok at mga kuko pati na rin ang paggawa ng mga hormone at antibodies, ang kanilang three-dimensional na istraktura ay may malaking biological at pharmacological na kahalagahan. Ang pag-alam sa istruktura ng mga protina ay nakakatulong upang maunawaan ang kanilang biological function, suriin ang kanilang pagiging karapat-dapat bilang mga therapeutic target, at matukoy ang kanilang pagiging epektibo bilang mga paggamot. Ang mga protina ay ang mga bloke ng pagbuo ng ilang mga gamot na nagliligtas-buhay, kabilang ang insulin at mga sintetikong antibodies laban sa malubhang impeksyon sa paghinga tulad ng RSV at cancer. Sa halip na masipag maghanap ng mga natural na variant, ang medikal na pananaliksik ay lalong kailangang gumawa ng ganap na bagong mga protina na may ilang partikular na katangian.

Para sa synthesis ng protina, ang EvolutionaryScale's ESM3 ay gumagamit ng isang nakatagong modelo ng wika na maaaring punan ang mga puwang sa iba't ibang kategorya sa pamamagitan ng pagtingin sa konteksto mula sa iba't ibang mga anggulo. Gumamit ang modelo ng hiwalay na alpabeto para sa bawat kategorya (sequence, 3D structure at function) at sinanay sa isang malaking dataset kabilang ang 2.8 bilyong mga sequence ng amino acid, 236 milyong istruktura ng protina at 539 milyong function ng protina . Upang bigyang-daan ang modelo na maunawaan ang konteksto sa loob at kabuuan ng maraming layer na ito, nakahanap ang team ng paraan upang katawanin ang bawat 3D na istraktura bilang isang serye ng mga character.

Inatasan ng startup ang modelo ng hamon sa paglikha ng mga sintetikong bersyon ng green fluorescent protein (GFP), na responsable para sa natural na nagaganap na liwanag sa mga marine species tulad ng corals at jellyfish, upang ipakita ang potensyal ng ESM3. Ang GFP, na nanalo ng 2008 Nobel Prize sa Chemistry, ay isang mahalagang protina sa molecular biology na nagpapahintulot sa mga siyentipiko na kilalanin at subaybayan ang mga bahagi ng mga buhay na selula. Bagama't mayroon lamang itong 58% na genetic na pagkakahawig sa natural na katapat nito, ang "esmGFP," ang pinakamagandang synthetic na variant ng GFP na ginawa ng ESM3, ay may mataas na ningning na maihahambing sa natural na GFP. Ayon sa mga mananaliksik, ang paglikha ng bagong fluorescent protein na ito ay katumbas ng paggaya sa higit sa 500 milyong taon ng ebolusyon.

Ang EvolutionaryScale Chief Scientist na si Alex Rives ay kasangkot sa mga nakaraang pag-ulit ng modelo ng ESM sa Meta. Nagpasya ang koponan na ipagpatuloy ang pag-aaral na ito nang mag-isa pagkatapos tumigil ang Meta sa pagtatrabaho sa lugar na ito noong nakaraang taon. Bilang isang resulta, ang fluorescent na protina ay inanunsyo lamang at $142 milyon ang namuhunan upang i-komersyal ang mga pagsulong na ito. Ang isang mas maliit, bukas na bersyon ng access ng EvolutionaryScale ay ginawa ding available para sa siyentipikong pananaliksik, ngunit hindi ito ganap na gumagana. Habang nasasabik siyang subukan ang modelo, si Martin Pacesa ng Ecole Polytechnique Fédérale de Lausanne nabanggit sa isang panayam na aabutin ng isang maraming kapangyarihan sa pag-compute para kopyahin ang buong bersyon.

Manatiling nasa tuktok ngpinakabagong sa teknolohiya at pagbabago na may mga update mula saCode Labs Academy.

Code Labs Academy © 2024 Lahat ng karapatan ay nakalaan.