진화 시뮬레이션: ESM3 언어 모델이 단백질 발달을 변화시키는 방법

진화 시뮬레이션: ESM3 언어 모델이 단백질 발달을 변화시키는 방법
2024년 11월 5일

ESM3 전직 Meta 직원들이 설립한 미국 기업 EvolutionaryScale이 만든 새로운 인공지능(AI)은 특정 특성, 프로세스를 가진 단백질을 설계할 수 있습니다. 유기적인 방식으로 진화하려면 일반적으로 수억 년이 걸립니다. 이 회사는 BioRxiv의 최근 사전 인쇄본에서 현재까지 가장 큰 생물학적 AI 중 하나인 이 생성적 가면 언어 모델을 공개했습니다. 특정 신호에 반응하여 단백질의 아미노산 서열, 3차원 구조 및 기능을 동시에 생성하는 ESM3의 능력은 독특하며 재료 연구, 약물 개발 약물 및 탄소 저장 단백질에 사용할 수 있는 가능성을 열어줍니다.

단백질은 근육, 머리카락, 손톱의 형성은 물론 호르몬과 항체의 생성을 비롯한 다양한 신체 과정에 필수적인 미세한 생체 기계이기 때문에 단백질의 3차원 구조는 생물학적, 약리학적으로 매우 중요합니다. 단백질의 구조를 아는 것은 단백질의 생물학적 기능을 이해하고, 치료 표적으로서의 적격성을 평가하고, 치료법으로서의 효과를 결정하는 데 도움이 됩니다. 단백질은 RSV 및 암과 같은 심각한 호흡기 감염에 대한 인슐린 및 합성 항체를 포함하여 여러 생명을 구하는 약물의 구성 요소입니다. 의학 연구에서는 천연 변이체를 힘들게 찾는 대신 특정 특성을 지닌 완전히 새로운 단백질을 만들어야 하는 필요성이 점차 커지고 있습니다.

단백질 합성의 경우 EvolutionaryScale의 ESM3은 다양한 각도에서 맥락을 살펴봄으로써 다양한 범주의 공백을 채울 수 있는 숨겨진 언어 모델을 사용합니다. 이 모델은 각 카테고리(서열, 3D 구조 및 기능)에 대해 별도의 알파벳을 사용했으며 28억 개의 아미노산 서열, 2억 3,600만 개의 단백질 구조, 5억 3,900만 개의 단백질 기능을 포함하는 대규모 데이터 세트에 대해 훈련되었습니다. 모델이 이러한 여러 레이어 내부와 레이어 전반의 맥락을 이해할 수 있도록 하기 위해 팀은 각 3D 구조를 일련의 캐릭터로 표현하는 방법을 찾았습니다.

스타트업은 ESM3의 잠재력을 입증하기 위해 산호나 해파리와 같은 해양 생물에서 자연적으로 발생하는 빛을 담당하는 녹색 형광 단백질(GFP)의 합성 버전을 만드는 과제를 모델에 부여했습니다. 2008년 노벨 화학상을 수상한 GFP는 과학자들이 살아있는 세포의 구성 요소를 식별하고 추적할 수 있게 해주는 분자 생물학의 필수 단백질입니다. ESM3가 생산한 GFP의 최고급 합성 변종인 'esmGFP'는 천연 GFP와 유전적 유사성은 58%에 불과했지만, 천연 GFP에 버금가는 높은 밝기를 보였다. 연구원들에 따르면, 이 새로운 형광 단백질을 만드는 것은 5억년 이상의 진화를 모방하는 것과 같습니다.

EvolutionaryScale 수석 과학자 Alex Rives는 Meta에서 ESM 모델의 이전 반복에 참여했습니다. 연구팀은 Meta가 작년에 이 분야의 연구를 중단한 이후 단독으로 이 연구를 계속하기로 결정했습니다. 그 결과, 형광 단백질이 방금 발표되었고 이러한 발전을 상업화하기 위해 1억 4,200만 달러가 투자되었습니다. EvolutionaryScale의 더 작은 개방형 액세스 버전도 과학 연구에 사용할 수 있지만 완벽하게 작동하지는 않습니다. 그는 모델을 테스트하게 되어 기뻤지만 인터뷰에서 언급 Ecole Polytechnique Fédérale de Lausanne의 Martin Pacesa는 정식 버전을 재현할 수 있는 많은 컴퓨팅 성능.

Code Labs Academy의 업데이트를 통해최신 기술 및 혁신에 대한 최신 정보를 받아보세요.

Code Labs Academy © 2025 판권 소유.