4,050억 개의 매개변수를 갖춘 오픈 소스 AI 모델인 Llama 3.1 405B는 Meta가 지금까지 출시되었습니다. 전체적으로 가장 큰 모델은 아니지만 최근에 출시된 오픈 소스 모델 중 가장 큰 모델입니다. 16,000개의 Nvidia H100 GPU에서 훈련된 Llama 3.1 405B는 새로운 방법론을 활용하여 Anthropic의 Claude 3.5 Sonnet 및 OpenAI의 GPT-4o와 같은 최상위 독점 모델과 경쟁할 수 있습니다. 모델은 Google Cloud, AWS, Azure를 포함한 클라우드 컴퓨팅 플랫폼에서 다운로드하여 사용할 수 있습니다. 또한 WhatsApp 및 Meta.ai를 사용하여 미국의 챗봇에도 통합되었습니다.
Llama 3.1 405B는 텍스트 기반 활동으로 제한되어 있지만 코딩 및 다국어 문서 요약(영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어 및 태국어)을 포함한 광범위한 작업을 실행할 수 있습니다. 현재 공개적으로 액세스할 수는 없지만 Meta는 사진, 비디오 및 음성을 처리하기 위해 다중 모드 Llama 모델을 적극적으로 개발하고 있습니다. 이 모델은 일반적이지만 잠재적 편견에 대한 의문을 제기하는 합성 데이터로 강화되었으며, 15조 개의 토큰으로 구성된 정제된 샘플에 대해 훈련되었습니다.
이 모델은 128,000개의 토큰 컨텍스트 창 덕분에 더 긴 입력을 효과적으로 처리하고 대화 컨텍스트를 유지할 수 있습니다. Llama 3.1 8B 및 Llama 3.1 70B는 이러한 확장된 컨텍스트 기능 외에도 적응성을 높이기 위해 타사 도구 및 API를 활용할 수도 있는 소형 모델입니다. 이러한 모델은 코드 검사, Brave Search 및 수학 질문용 Wolfram Alpha를 위해 Python 인터프리터와 통신할 수 있습니다.
메타는 라마를 중심으로 개발자 생태계를 조성하여 생성 AI의 기둥이 되고자 합니다. 대규모 개발자 배포에 대한 일부 제한 사항이 있지만 새 라이선스를 통해 개발자는 타사 생성 모델 개발을 위해 모델 출력을 사용할 수 있습니다. 미세 조정, 합성 데이터 생성 및 정교한 애플리케이션 개발을 촉진하기 위해 Meta는 새로운 안전 도구와 Llama Stack API도 출시하고 있습니다. )
CEO인 Mark Zuckerberg는 Meta의 AI 기술을 업계 표준으로 확립하는 동시에 AI에 대한 접근을 민주화하는 데 중점을 두고 있습니다. 법적 문제와 데이터 관행에 대한 우려에도 불구하고 3억 개가 넘는 라마 모델이 다운로드되었고 20,000개 이상의 변형 모델이 만들어졌습니다.
훈련으로 인해 전력망에 부담이 가해지기 때문에 이러한 모델을 확장할 때 에너지 문제가 발생합니다. Meta는 앞으로 더 큰 모델을 구축할 계획이므로 이러한 어려움을 해결하는 것이 필수적입니다. Llama 3.1 405B의 출시로 Meta는 생성 AI의 경계를 넓히고 경쟁업체에 도전하는 것을 목표로 하는 AI 전략을 향한 중요한 발걸음을 내디뎠습니다.