Meta revela Llama 3.1 405B: o maior modelo de IA de código aberto dos últimos anos

Meta revela Llama 3.1 405B: o maior modelo de IA de código aberto dos últimos anos

Llama 3.1 405B, um modelo de IA de código aberto com 405 bilhões de parâmetros, é o maior modelo que Meta foi lançado até agora. Não é o maior modelo geral, mas é o maior modelo de código aberto disponibilizado recentemente. Utilizando novas metodologias, o Llama 3.1 405B, treinado em 16.000 GPUs Nvidia H100, pode rivalizar com modelos proprietários de primeira linha, como Claude 3.5 Sonnet da Anthropic e GPT-4o da OpenAI. O modelo pode ser baixado e usado em plataformas de computação em nuvem, incluindo Google Cloud, AWS e Azure. Também está integrado a chatbots nos Estados Unidos usando WhatsApp e Meta.ai.

Embora esteja restrito a atividades baseadas em texto, o Llama 3.1 405B pode executar uma ampla gama de tarefas, incluindo codificação e resumo de documentos multilíngues (em inglês, alemão, francês, italiano, português, hindi, espanhol e tailandês). Embora atualmente não sejam acessíveis ao público, Meta está trabalhando ativamente em modelos multimodais Llama para lidar com fotos, vídeos e fala. O modelo foi reforçado com dados sintéticos, o que é comum, mas levanta questões sobre possíveis vieses, e depois treinado em uma amostra refinada de 15 trilhões de tokens.

O modelo pode lidar com entradas mais longas com eficácia e manter o contexto da conversa graças à sua janela de contexto de 128.000 tokens. O Llama 3.1 8B e o Llama 3.1 70B são modelos menores que também podem utilizar ferramentas e APIs de terceiros para aumentar sua adaptabilidade, além de terem esse recurso de contexto expandido. Esses modelos podem se comunicar com um interpretador Python para verificação de código, Brave Search e Wolfram Alpha para questões matemáticas.

Meta quer criar um ecossistema de desenvolvedores em torno do Llama para que ele se torne um pilar da IA ​​generativa. Com algumas limitações na implantação para desenvolvedores maiores, a nova licença permite que os desenvolvedores usem resultados de modelos para desenvolver modelos generativos de terceiros. Para facilitar o ajuste fino, a produção de dados sintéticos e o desenvolvimento de aplicações sofisticadas, a Meta também está lançando novas ferramentas de segurança e a API Llama Stack.

O CEO Mark Zuckerberg dá forte ênfase à democratização do acesso à IA, ao mesmo tempo que estabelece as tecnologias de IA da Meta como normas da indústria. Mais de 300 milhões de modelos Llama foram baixados e 20.000 modelos variantes foram produzidos, apesar das questões legais e das preocupações com as práticas de dados.

Dificuldades energéticas surgem ao dimensionar estes modelos, uma vez que o treinamento sobrecarrega as redes elétricas. Como a Meta pretende construir modelos ainda maiores no futuro, resolver estas dificuldades será essencial. Com o lançamento do Llama 3.1 405B, a Meta deu um passo significativo em direção à sua estratégia de IA, que visa ultrapassar os limites da IA ​​generativa e desafiar os concorrentes.

Code Labs Academy © 2024 Todos os direitos reservados.