Meta revela Llama 3.1 405B: o maior modelo de IA de código aberto dos últimos anos

Atualizado em July 24, 2024 3 Minutos Leia

Llama 3.1 405B, um modelo de IA de código aberto com 405 bilhões de parâmetros, é o maior modelo que Meta foi lançado até agora. Não é o maior modelo geral, mas é o maior modelo de código aberto disponibilizado recentemente. Utilizando novas metodologias, o Llama 3.1 405B, treinado em 16.000 GPUs Nvidia H100, pode rivalizar com modelos proprietários de primeira linha, como Claude 3.5 Sonnet da Anthropic e GPT-4o da OpenAI. O modelo pode ser baixado e usado em plataformas de computação em nuvem, incluindo Google Cloud, AWS e Azure. Também está integrado a chatbots nos Estados Unidos usando WhatsApp e Meta.ai.

Embora esteja restrito a atividades baseadas em texto, o Llama 3.1 405B pode executar uma ampla gama de tarefas, incluindo codificação e resumo de documentos multilíngues (em inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês). Embora atualmente não sejam acessíveis ao público, Meta está trabalhando ativamente em modelos multimodais Llama para lidar com fotos, vídeos e fala. O modelo foi reforçado com dados sintéticos, o que é comum, mas levanta questões sobre possíveis vieses, e depois treinado em uma amostra refinada de 15 trilhões de tokens.

O modelo pode lidar com entradas mais longas com eficácia e manter o contexto da conversa graças à sua janela de contexto de 128.000 tokens. O Llama 3.1 8B e o Llama 3.1 70B são modelos menores que também podem utilizar ferramentas e APIs de terceiros para aumentar sua adaptabilidade, além de terem esse recurso de contexto expandido. Esses modelos podem se comunicar com um interpretador Python para verificação de código, Brave Search e Wolfram Alpha para questões matemáticas.

Meta quer criar um ecossistema de desenvolvedores em torno do Llama para que ele se torne um pilar da IA generativa. Com algumas limitações na implantação para desenvolvedores maiores, a nova licença permite que os desenvolvedores usem resultados de modelos para desenvolver modelos generativos de terceiros. Para facilitar o ajuste fino, a produção de dados sintéticos e o desenvolvimento de aplicações sofisticadas, a Meta também está lançando novas ferramentas de segurança e a API Llama Stack.

O CEO Mark Zuckerberg dá forte ênfase à democratização do acesso à IA, ao mesmo tempo que estabelece as tecnologias de IA da Meta como normas da indústria. Mais de 300 milhões de modelos Llama foram baixados e 20.000 modelos variantes foram produzidos, apesar das questões legais e das preocupações com as práticas de dados.

Dificuldades energéticas surgem ao dimensionar estes modelos, uma vez que o treinamento sobrecarrega as redes elétricas. Como a Meta pretende construir modelos ainda maiores no futuro, resolver estas dificuldades será essencial. Com o lançamento do Llama 3.1 405B, a Meta deu um passo significativo em direção à sua estratégia de IA, que visa ultrapassar os limites da IA generativa e desafiar os concorrentes.