5 Νοεμβρίου 2024
ESM3, μια νέα τεχνητή νοημοσύνη (AI) που δημιουργήθηκε από την EvolutionaryScale, μια αμερικανική εταιρεία που ιδρύθηκε από πρώην εργαζόμενους της Meta, μπορεί να σχεδιάσει πρωτεΐνες με συγκεκριμένες ιδιότητες, μια διαδικασία που κανονικά θα χρειαζόταν εκατοντάδες εκατομμύρια χρόνια για να εξελιχθεί με οργανικό τρόπο. Η εταιρεία αποκάλυψε αυτό το μοντέλο παραγωγής μάσκας γλώσσας, ένα από τα μεγαλύτερα βιολογικά AI μέχρι σήμερα, σε πρόσφατη προεκτύπωση στο BioRxiv. Η ικανότητα του ESM3 να παράγει ταυτόχρονα την αλληλουχία αμινοξέων, την τρισδιάστατη δομή και λειτουργία μιας πρωτεΐνης ως απόκριση σε συγκεκριμένα σήματα είναι μοναδική και ανοίγει την πόρτα σε χρήσεις στην έρευνα υλικών, φάρμακα ανάπτυξης φαρμάκων και πρωτεΐνες αποθήκευσης άνθρακα.
Δεδομένου ότι οι πρωτεΐνες είναι μικροσκοπικές βιομηχανές ζωτικής σημασίας για πολλές σωματικές διεργασίες, συμπεριλαμβανομένου του σχηματισμού μυών, μαλλιών και νυχιών καθώς και για την παραγωγή ορμονών και αντισωμάτων, η τρισδιάστατη δομή τους είναι μεγάλης βιολογικής και φαρμακολογικής σημασίας. Η γνώση της δομής των πρωτεϊνών βοηθά στην κατανόηση της βιολογικής τους λειτουργίας, στην αξιολόγηση της καταλληλότητάς τους ως θεραπευτικών στόχων και στον προσδιορισμό της αποτελεσματικότητάς τους ως θεραπείες. Οι πρωτεΐνες είναι τα δομικά στοιχεία πολλών φαρμάκων που σώζουν ζωές, συμπεριλαμβανομένης της ινσουλίνης και των συνθετικών αντισωμάτων έναντι σοβαρών αναπνευστικών λοιμώξεων όπως ο RSV και ο καρκίνος. Αντί της επίπονης αναζήτησης φυσικών παραλλαγών, η ιατρική έρευνα χρειάζεται όλο και περισσότερο να παράγει εντελώς νέες πρωτεΐνες με ορισμένα χαρακτηριστικά.
Για τη σύνθεση πρωτεϊνών, το ESM3 της EvolutionaryScale χρησιμοποιεί ένα κρυφό μοντέλο γλώσσας που μπορεί να καλύψει τα κενά σε διάφορες κατηγορίες κοιτάζοντας το πλαίσιο από διαφορετικές οπτικές γωνίες. Το μοντέλο χρησιμοποίησε ένα ξεχωριστό αλφάβητο για κάθε κατηγορία (αλληλουχία, τρισδιάστατη δομή και λειτουργία) και εκπαιδεύτηκε σε ένα μεγάλο σύνολο δεδομένων που περιλαμβάνει 2,8 δισεκατομμύρια αλληλουχίες αμινοξέων, 236 εκατομμύρια δομές πρωτεΐνης και 539 εκατομμύρια πρωτεϊνικές συναρτήσεις. Για να μπορέσει το μοντέλο να κατανοήσει το πλαίσιο τόσο εντός όσο και σε αυτά τα πολλά επίπεδα, η ομάδα βρήκε έναν τρόπο να αναπαραστήσει κάθε τρισδιάστατη δομή ως μια σειρά χαρακτήρων.
Η startup ανέθεσε στο μοντέλο την πρόκληση να δημιουργήσει συνθετικές εκδόσεις πράσινης φθορίζουσας πρωτεΐνης (GFP), υπεύθυνης για το φυσικό φως σε θαλάσσια είδη όπως τα κοράλλια και οι μέδουσες, για να καταδείξει τις δυνατότητες του ESM3. Το GFP, το οποίο κέρδισε το Νόμπελ Χημείας το 2008, είναι μια βασική πρωτεΐνη στη μοριακή βιολογία που επιτρέπει στους επιστήμονες να αναγνωρίζουν και να παρακολουθούν συστατικά των ζωντανών κυττάρων. Αν και είχε μόνο 58% γενετική ομοιότητα με το φυσικό του αντίστοιχο, το "esmGFP", η καλύτερη συνθετική παραλλαγή του GFP που παράγεται από το ESM3, είχε υψηλή φωτεινότητα συγκρίσιμη με αυτή του φυσικού GFP. Σύμφωνα με τους ερευνητές, η δημιουργία αυτής της νέας φθορίζουσας πρωτεΐνης θα ισοδυναμούσε με τη μίμηση περισσότερων από 500 εκατομμυρίων ετών εξέλιξης.
Ο επικεφαλής επιστήμονας της EvolutionaryScale Alex Rives συμμετείχε σε προηγούμενες επαναλήψεις του μοντέλου ESM στο Meta. Η ομάδα αποφάσισε να συνεχίσει αυτή τη μελέτη μόνη της αφού ο Meta σταμάτησε να εργάζεται σε αυτόν τον τομέα πέρυσι. Ως αποτέλεσμα, η φθορίζουσα πρωτεΐνη μόλις ανακοινώθηκε και 142 εκατομμύρια δολάρια έχουν επενδυθεί για την εμπορευματοποίηση αυτών των προόδων. Μια μικρότερη έκδοση ανοιχτής πρόσβασης του EvolutionaryScale έχει επίσης διατεθεί για επιστημονική έρευνα, αλλά δεν είναι πλήρως λειτουργική. Ενώ ήταν ενθουσιασμένος να δοκιμάσει το μοντέλο, ο Martin Pacesa της Ecole Polytechnique Fédérale de Lausanne ανέφερε σε μια συνέντευξη ότι θα χρειαζόταν πολλή υπολογιστική ισχύ για την αναπαραγωγή της πλήρους έκδοσης.
Μείνετε ενημερωμένοι για την τελευταία λέξη της τεχνολογίας και της καινοτομίας με ενημερώσεις από Code Labs Academy.