Evolūcijas simulēšana: kā ESM3 valodas modelis pārveido olbaltumvielu attīstību

Evolūcijas simulēšana: kā ESM3 valodas modelis pārveido olbaltumvielu attīstību
2024. gada 5. novembris

ESM3, jauns mākslīgais intelekts (AI), ko izveidojis EvolutionaryScale, ASV uzņēmums, kuru dibināja bijušie Meta darbinieki, var izstrādāt proteīnus ar noteiktām īpašībām, procesu. kam parasti būtu nepieciešami simtiem miljonu gadu, lai organiskā veidā attīstītos. Uzņēmums atklāja šo ģeneratīvo maskētās valodas modeli, kas ir viens no līdz šim lielākajiem bioloģiskajiem AI, nesenajā BioRxiv preprintā. ESM3 spēja vienlaicīgi ražot aminoskābju secību, trīsdimensiju struktūru un proteīna funkcijas, reaģējot uz konkrētiem signāliem, ir unikāla un paver durvis izmantošanai materiālu izpētē, zāļu izstrādes medikamentos un oglekļa uzglabāšanas proteīnos.

Tā kā olbaltumvielas ir mikroskopiskas biomašīnas, kas ir būtiskas daudziem ķermeņa procesiem, tostarp muskuļu, matu un nagu veidošanai, kā arī hormonu un antivielu ražošanai, to trīsdimensiju struktūrai ir liela bioloģiska un farmakoloģiska nozīme. Proteīnu struktūras pārzināšana palīdz izprast to bioloģisko funkciju, novērtēt to piemērotību terapeitiskiem mērķiem un noteikt to efektivitāti kā ārstēšanu. Olbaltumvielas ir vairāku dzīvības glābšanas zāļu, tostarp insulīna un sintētisku antivielu, kas ir pret nopietnām elpceļu infekcijām, piemēram, RSV un vēzi, celtniecības bloki. Tā vietā, lai smagi meklētu dabiskus variantus, medicīniskajiem pētījumiem arvien vairāk ir jāizveido pilnīgi jauni proteīni ar noteiktām īpašībām.

Olbaltumvielu sintēzei EvolutionaryScale ESM3 izmanto slēptu valodas modeli, kas var aizpildīt nepilnības dažādās kategorijās, aplūkojot kontekstu no dažādiem leņķiem. Modelis izmantoja atsevišķu alfabētu katrai kategorijai (secība, 3D struktūra un funkcija), un tika apmācīts ar lielu datu kopu, kurā bija 2,8 miljardi aminoskābju sekvences, 236 miljoni olbaltumvielu struktūru un 539 miljoni olbaltumvielu funkciju. Lai modelis varētu izprast kontekstu gan šajos daudzajos slāņos, gan starp tiem, komanda atrada veidu, kā attēlot katru 3D struktūru kā rakstzīmju sēriju.

Startup uzdeva modelim izveidot sintētiskas zaļās fluorescējošās olbaltumvielas (GFP), kas ir atbildīgas par dabisko gaismu jūras sugās, piemēram, koraļļos un medūzās, sintētiskas versijas, lai parādītu ESM3 potenciālu. GFP, kas ieguva 2008. gada Nobela prēmiju ķīmijā, ir būtisks proteīns molekulārajā bioloģijā, kas ļauj zinātniekiem identificēt un izsekot dzīvo šūnu sastāvdaļas. Lai gan tai bija tikai 58% ģenētiska līdzība ar savu dabisko ekvivalentu, “esmGFP”, labākajam ESM3 ražotajam sintētiskajam GFP variantam, bija augsts spilgtums, kas ir salīdzināms ar dabisko GFP. Pēc pētnieku domām, šī jaunā fluorescējošā proteīna izveide būtu līdzvērtīga vairāk nekā 500 miljonu gadu ilgas evolūcijas atdarināšanai.

EvolutionaryScale galvenais zinātnieks Alekss Rivess bija iesaistīts iepriekšējās ESM modeļa iterācijās uzņēmumā Meta. Komanda nolēma turpināt šo pētījumu vienatnē pēc tam, kad Meta pagājušajā gadā pārtrauca strādāt šajā jomā. Rezultātā tikko tika paziņots par fluorescējošu proteīnu, un ir ieguldīti 142 miljoni ASV dolāru, lai komercializētu šos sasniegumus. Zinātniskajai izpētei ir pieejama arī mazāka, atvērtas piekļuves EvolutionaryScale versija, taču tā nav pilnībā funkcionāla. Kamēr viņš bija sajūsmā par modeļa testēšanu, Martins Pačesa no Ecole Polytechnique Fédérale de Lausanne intervijā minēja, ka tas prasīs daudz skaitļošanas jaudas, lai reproducētu pilno versiju.

Sekojiet jaunumiem jaunākajām tehnoloģijām un inovācijām, izmantojot atjauninājumus no Code Labs Academy](https://codelabsacademy.com/).

Code Labs Academy © 2024 Visas tiesības paturētas.