Llama 3.1 405B, un modelo de IA de código aberto con 405.000 millóns de parámetros, é o modelo máis grande que Meta publicouse ata agora. Non é o modelo máis grande en xeral, pero é o modelo de código aberto máis grande que estivo dispoñible recentemente. Utilizando novas metodoloxías, Llama 3.1 405B, adestrado en 16.000 GPU Nvidia H100, pode rivalizar con modelos propietarios de primeiro nivel como Claude 3.5 Sonnet de Anthropic e GPT-4o de OpenAI. O modelo pódese descargar e usar en plataformas de computación en nube, incluíndo Google Cloud, AWS e Azure. Tamén está integrado nos chatbots dos Estados Unidos mediante WhatsApp e Meta.ai.
Aínda que está restrinxido a actividades baseadas en texto, Llama 3.1 405B pode executar unha gran variedade de tarefas, incluíndo codificación e resumo de documentos multilingües (en inglés, alemán, francés, italiano, portugués, hindi, español e tailandés). Aínda que estes non están actualmente de acceso público, Meta está a traballar activamente en modelos multimodais de Llama para xestionar fotos, vídeos e voz. O modelo reforzouse con datos sintéticos, o que é habitual pero que suscita dúbidas sobre o posible sesgo, e despois adestrouse nunha mostra refinada de 15 billóns de fichas.
O modelo pode xestionar de forma efectiva entradas máis longas e manter o contexto da conversa grazas á súa ventá de contexto de 128.000 tokens. O Llama 3.1 8B e o Llama 3.1 70B son modelos máis pequenos que tamén poden utilizar ferramentas e API de terceiros para aumentar a súa adaptabilidade ademais de ter esta capacidade de contexto ampliada. Estes modelos poden comunicarse cun intérprete Python para a comprobación de código, Brave Search e Wolfram Alpha para preguntas matemáticas.
Meta quere crear un ecosistema de desenvolvedores arredor de Llama para que se converta nun alicerce da IA xerativa. Con algunhas limitacións na implementación para desenvolvedores máis grandes, a nova licenza permite que os desenvolvedores utilicen saídas de modelos para desenvolver modelos xerativos de terceiros. Co fin de facilitar o axuste fino, a produción de datos sintéticos e o desenvolvemento de aplicacións sofisticadas, Meta tamén está a lanzar novas ferramentas de seguridade e a API Llama Stack.. )
O CEO Mark Zuckerberg fai un gran énfase na democratización do acceso á IA ao tempo que establece as tecnoloxías de IA de Meta como normas da industria. Descargáronse máis de 300 millóns de modelos Llama e fixéronse 20.000 modelos variantes, a pesar dos problemas legais e as preocupacións polas prácticas de datos.
As dificultades enerxéticas xorden ao escalar estes modelos xa que o adestramento supón unha tensión nas redes eléctricas. Xa que Meta pretende construír modelos aínda máis grandes no futuro, resolver estas dificultades será esencial. Co lanzamento de Llama 3.1 405B, Meta deu un paso importante cara á súa estratexia de IA, que ten como obxectivo superar os límites da IA xerativa e desafiar aos competidores.