Mô phỏng sự tiến hóa: Mô hình ngôn ngữ ESM3 biến đổi sự phát triển protein như thế nào

Mô phỏng sự tiến hóa: Mô hình ngôn ngữ ESM3 biến đổi sự phát triển protein như thế nào
Ngày 5 tháng 11 năm 2024

ESM3, một trí tuệ nhân tạo (AI) mới được tạo ra bởi EvolutionaryScale, một công ty Hoa Kỳ do các cựu nhân viên Meta thành lập, có thể thiết kế các protein với các đặc tính cụ thể, một quy trình thông thường sẽ mất hàng trăm triệu năm để tiến hóa một cách hữu cơ. Công ty đã công bố mô hình ngôn ngữ mặt nạ tổng quát này, một trong những AI sinh học lớn nhất cho đến nay, trong bản in gần đây trên BioRxiv. Khả năng ESM3 tạo ra đồng thời chuỗi axit amin, cấu trúc ba chiều và chức năng của protein để đáp ứng với các tín hiệu cụ thể là duy nhất và mở ra cơ hội sử dụng trong nghiên cứu vật liệu, phát triển thuốc và protein lưu trữ carbon.

Vì protein là cỗ máy sinh học cực nhỏ cần thiết cho nhiều quá trình của cơ thể, bao gồm sự hình thành cơ, tóc và móng cũng như sản xuất hormone và kháng thể, nên cấu trúc ba chiều của chúng có tầm quan trọng sinh học và dược lý rất lớn. Biết cấu trúc của protein giúp hiểu được chức năng sinh học của chúng, đánh giá tính phù hợp của chúng làm mục tiêu điều trị và xác định hiệu quả của chúng trong vai trò điều trị. Protein là khối xây dựng của một số loại thuốc cứu sống, bao gồm insulin và kháng thể tổng hợp chống lại các bệnh nhiễm trùng đường hô hấp nghiêm trọng như RSV và ung thư. Thay vì miệt mài tìm kiếm các biến thể tự nhiên, nghiên cứu y học ngày càng cần tạo ra các loại protein hoàn toàn mới với những đặc điểm nhất định.

Để tổng hợp protein, ESM3 của EvolutionaryScale sử dụng mô hình ngôn ngữ ẩn có thể lấp đầy những khoảng trống trong nhiều danh mục khác nhau bằng cách xem xét bối cảnh từ các góc độ khác nhau. Mô hình sử dụng bảng chữ cái riêng cho từng danh mục (trình tự, cấu trúc và chức năng 3D) và được huấn luyện trên bộ dữ liệu lớn bao gồm 2,8 tỷ trình tự axit amin, 236 triệu cấu trúc protein và 539 triệu chức năng protein. Để cho phép mô hình hiểu được bối cảnh cả bên trong và trên nhiều lớp này, nhóm đã tìm ra cách thể hiện từng cấu trúc 3D dưới dạng một chuỗi ký tự.

Công ty khởi nghiệp đã giao cho mô hình thử thách tạo ra các phiên bản tổng hợp của protein huỳnh quang màu xanh lá cây (GFP), chịu trách nhiệm tạo ra ánh sáng tự nhiên ở các loài sinh vật biển như san hô và sứa, để chứng minh tiềm năng của ESM3. GFP, đoạt giải Nobel Hóa học năm 2008, là một protein thiết yếu trong sinh học phân tử cho phép các nhà khoa học xác định và theo dõi các thành phần của tế bào sống. Mặc dù nó chỉ có 58% giống về mặt di truyền so với đối tác tự nhiên của nó, nhưng “esmGFP”, biến thể tổng hợp tốt nhất của GFP do ESM3 tạo ra, có độ sáng cao tương đương với GFP tự nhiên. Theo các nhà nghiên cứu, việc tạo ra loại protein huỳnh quang mới này sẽ tương đương với việc bắt chước quá trình tiến hóa hơn 500 triệu năm.

Nhà khoa học trưởng của EvolutionaryScale Alex Rives đã tham gia vào các lần lặp lại trước đây của mô hình ESM tại Meta. Nhóm quyết định tiếp tục nghiên cứu này một mình sau khi Meta ngừng hoạt động trong lĩnh vực này vào năm ngoái. Kết quả là protein huỳnh quang vừa được công bố và 142 triệu USD đã được đầu tư để thương mại hóa những tiến bộ này. Một phiên bản truy cập mở, nhỏ hơn của EvolutionaryScale cũng đã được cung cấp cho nghiên cứu khoa học, nhưng nó không có đầy đủ chức năng. Trong khi hào hứng thử nghiệm mô hình, Martin Pacesa của Ecole Polytechnique Fédérale de Lausanne đã đề cập trong một cuộc phỏng vấn rằng sẽ mất một khoảng thời gian rất nhiều sức mạnh tính toán để tái tạo phiên bản đầy đủ.

Luôn cập nhật công nghệ và cải tiến mới nhất với thông tin cập nhật từCode Labs Academy.

Code Labs Academy © 2025 Đã đăng ký Bản quyền.