Llama 3.1 405B, un modèle d'IA open source avec 405 milliards de paramètres, est le plus grand modèle Meta a été publié jusqu'à présent. Ce n'est pas le plus grand modèle dans l'ensemble, mais c'est le plus grand modèle open source mis à disposition récemment. Grâce à de nouvelles méthodologies, Llama 3.1 405B, formé sur 16 000 GPU Nvidia H100, peut rivaliser avec des modèles propriétaires de premier plan comme Claude 3.5 Sonnet d'Anthropic et GPT-4o d'OpenAI. Le modèle peut être téléchargé et utilisé sur des plateformes de cloud computing, notamment Google Cloud, AWS et Azure. Il est également intégré aux chatbots aux États-Unis utilisant WhatsApp et Meta.ai.
Bien qu'il soit limité aux activités basées sur du texte, Llama 3.1 405B peut exécuter un large éventail de tâches, notamment le codage et la synthèse de documents multilingues (en anglais, allemand, français, italien, portugais, hindi, espagnol et thaï). Bien que ceux-ci ne soient pas actuellement accessibles au public, Meta travaille activement sur des modèles multimodaux de Lama pour gérer les photos, les vidéos et la parole. Le modèle a été renforcé avec des données synthétiques, ce qui est habituel mais soulève des questions sur les biais potentiels, puis formé sur un échantillon affiné de 15 000 milliards de jetons.
Le modèle peut gérer efficacement des entrées plus longues et conserver le contexte de la conversation grâce à sa fenêtre contextuelle de 128 000 jetons. Le Llama 3.1 8B et le Llama 3.1 70B sont des modèles plus petits qui peuvent également utiliser des outils et des API tiers pour augmenter leur adaptabilité en plus de disposer de cette capacité contextuelle étendue. Ces modèles peuvent communiquer avec un interpréteur Python pour la vérification du code, Brave Search et Wolfram Alpha pour les questions mathématiques.
Meta souhaite créer un écosystème de développeurs autour de Llama pour qu'il devienne un pilier de l'IA générative. Avec certaines limitations de déploiement pour les grands développeurs, la nouvelle licence permet aux développeurs d'utiliser les sorties du modèle pour développer des modèles génératifs tiers. Afin de faciliter le réglage fin, la production de données synthétiques et le développement d'applications sophistiquées, Meta publie également de nouveaux outils de sécurité et l'API Llama Stack.
Le PDG Mark Zuckerberg met fortement l'accent sur la démocratisation de l'accès à l'IA tout en établissant les technologies d'IA de Meta comme normes de l'industrie. Plus de 300 millions de modèles de lamas ont été téléchargés et 20 000 variantes de modèles ont été créées, malgré les problèmes juridiques et les inquiétudes concernant les pratiques en matière de données.
Des difficultés énergétiques surviennent lors de la mise à l’échelle de ces modèles, car la formation met à rude épreuve les réseaux électriques. Puisque Meta a l’intention de construire des modèles encore plus grands à l’avenir, il sera essentiel de résoudre ces difficultés. Avec la sortie de Llama 3.1 405B, Meta a franchi une étape importante vers sa stratégie d'IA, qui vise à repousser les limites de l'IA générative et à défier ses concurrents.