Էվոլյուցիայի մոդելավորում. ինչպես է ESM3 լեզվի մոդելը փոխակերպում սպիտակուցի զարգացումը

Էվոլյուցիայի մոդելավորում. ինչպես է ESM3 լեզվի մոդելը փոխակերպում սպիտակուցի զարգացումը
Նոյեմբերի 5, 2024 թ

ESM3, նոր արհեստական ​​ինտելեկտը (AI), որը ստեղծվել է EvolutionaryScale ամերիկյան ընկերության կողմից, որը հիմնադրվել է Meta-ի նախկին աշխատակիցների կողմից, կարող է նախագծել որոշակի հատկություններով սպիտակուցներ, գործընթաց։ որը սովորաբար հարյուր միլիոնավոր տարիներ կպահանջի օրգանական ձևով զարգանալու համար: Ընկերությունը ներկայացրել է այս գեներատիվ դիմակավորված լեզվի մոդելը, որը մինչ օրս ամենամեծ կենսաբանական AI-ներից մեկն է վերջին նախնական տպագրությամբ BioRxiv-ում: ESM3-ի կարողությունը՝ միաժամանակ արտադրելու ամինաթթուների հաջորդականությունը, եռաչափ կառուցվածքը և սպիտակուցի գործառույթը՝ ի պատասխան որոշակի ազդանշանների, եզակի է և դուռ է բացում նյութերի հետազոտության, դեղերի մշակման դեղերի և ածխածնի պահպանման սպիտակուցների օգտագործման համար:

Քանի որ սպիտակուցները միկրոսկոպիկ բիոմեքենաներ են, որոնք կենսական նշանակություն ունեն մարմնական բազմաթիվ պրոցեսների համար, ներառյալ մկանների, մազերի և եղունգների ձևավորումը, ինչպես նաև հորմոնների և հակամարմինների արտադրությունը, դրանց եռաչափ կառուցվածքը մեծ կենսաբանական և դեղաբանական նշանակություն ունի: Սպիտակուցների կառուցվածքի իմացությունը օգնում է հասկանալ դրանց կենսաբանական գործառույթը, գնահատել դրանց համապատասխանությունը որպես բուժական թիրախներ և որոշել դրանց արդյունավետությունը որպես բուժում: Սպիտակուցները մի քանի կյանք փրկող դեղամիջոցների շինանյութն են, ներառյալ ինսուլինը և սինթետիկ հակամարմինները շնչառական լուրջ վարակների դեմ, ինչպիսիք են RSV-ն և քաղցկեղը: Բնական տարբերակները ջանասիրաբար փնտրելու փոխարեն, բժշկական հետազոտություններն ավելի ու ավելի են պահանջում որոշակի հատկանիշներով լիովին նոր սպիտակուցներ ստեղծել:

Սպիտակուցների սինթեզի համար EvolutionaryScale-ի ESM3-ն օգտագործում է թաքնված լեզվի մոդել, որը կարող է լրացնել տարբեր կատեգորիաների բացերը՝ դիտարկելով համատեքստը տարբեր կողմերից: Մոդելը յուրաքանչյուր կատեգորիայի համար օգտագործեց առանձին այբուբեն (հաջորդականություն, 3D կառուցվածք և գործառույթ) և վերապատրաստվեց մեծ տվյալների բազայի վրա, ներառյալ 2,8 միլիարդ ամինաթթուների հաջորդականությունը, 236 միլիոն սպիտակուցային կառուցվածքը և 539 միլիոն սպիտակուցի գործառույթը: Որպեսզի մոդելը կարողանա հասկանալ համատեքստը և՛ այս բազմաթիվ շերտերի ներսում, և՛ դրանց միջով, թիմը գտավ յուրաքանչյուր 3D կառուցվածքը որպես նիշերի շարք ներկայացնելու միջոց:

Ստարտափը մոդելին հանձնարարել է ստեղծել կանաչ լյումինեսցենտ սպիտակուցի (GFP) սինթետիկ տարբերակներ, որոնք պատասխանատու են ծովային տեսակների, ինչպիսիք են մարջաններն ու մեդուզաները, բնական լույսի համար՝ ցուցադրելու ESM3-ի ներուժը: GFP-ն, որը 2008թ. քիմիայի բնագավառում Նոբելյան մրցանակի է արժանացել, մոլեկուլային կենսաբանության մեջ կարևոր սպիտակուց է, որը թույլ է տալիս գիտնականներին հայտնաբերել և հետևել կենդանի բջիջների բաղադրիչներին: Չնայած այն ուներ ընդամենը 58% գենետիկ նմանություն իր բնական գործընկերոջը՝ «esmGFP»-ին՝ ESM3-ի կողմից արտադրված GFP-ի լավագույն սինթետիկ տարբերակը, ուներ բարձր պայծառություն, որը համեմատելի է բնական GFP-ի հետ: Հետազոտողների կարծիքով, այս նոր լյումինեսցենտ սպիտակուցի ստեղծումը հավասարազոր կլինի ավելի քան 500 միլիոն տարվա էվոլյուցիայի նմանակմանը:

EvolutionaryScale-ի գլխավոր գիտնական Ալեքս Ռիվսը մասնակցել է ESM մոդելի նախորդ կրկնություններին Meta-ում: Թիմը որոշեց շարունակել այս ուսումնասիրությունը միայնակ այն բանից հետո, երբ անցյալ տարի Մետան դադարեցրեց աշխատել այս ոլորտում: Արդյունքում, լյումինեսցենտ սպիտակուցը նոր է հայտարարվել, և 142 միլիոն դոլար է ներդրվել այս առաջընթացը առևտրայնացնելու համար: EvolutionaryScale-ի ավելի փոքր, բաց հասանելիության տարբերակը նույնպես հասանելի է դարձել գիտական ​​հետազոտությունների համար, սակայն այն ամբողջությամբ չի գործում: Մինչ նա հուզված էր փորձարկել մոդելը, Մարտին Պասեսան Լոզանի պոլիտեխնիկական ֆեդերացիայից հարցազրույցում նշել է, որ անհրաժեշտ կլինի. շատ հաշվողական հզորություն՝ ամբողջական տարբերակը վերարտադրելու համար:

Code Labs Academy © 2024 Բոլոր իրավունքները պաշտպանված են.