Llama 3.1 405B, un model d'IA de codi obert amb 405.000 milions de paràmetres, és el model més gran que Meta s'ha publicat fins ara. No és el model més gran en general, però és el model de codi obert més gran que s'ha posat a disposició recentment. Utilitzant noves metodologies, Llama 3.1 405B, entrenat en 16.000 GPU Nvidia H100, pot rivalitzar amb models propietaris de primer nivell com el Claude 3.5 Sonnet d'Anthropic i el GPT-4o d'OpenAI. El model es pot descarregar i utilitzar en plataformes de computació en núvol com ara Google Cloud, AWS i Azure. També està integrat als chatbots dels Estats Units mitjançant WhatsApp i Meta.ai.
Tot i que està restringit a activitats basades en text, Llama 3.1 405B pot executar una àmplia gamma de tasques, inclosa la codificació i el resum de documents multilingües (en anglès, alemany, francès, italià, portuguès, hindi, espanyol i tailandès). Tot i que actualment no són accessibles públicament, Meta treballa activament en models multimodals de Llama per gestionar fotos, vídeos i veu. El model es va reforçar amb dades sintètiques, que és habitual, però planteja preguntes sobre possibles biaixos, i després es va entrenar amb una mostra refinada de 15 bilions de fitxes.
El model pot gestionar eficaçment entrades més llargues i mantenir el context de la conversa gràcies a la seva finestra de context de 128.000 testimonis. El Llama 3.1 8B i el Llama 3.1 70B són models més petits que també poden utilitzar eines i API de tercers per augmentar la seva adaptabilitat a més de tenir aquesta capacitat de context ampliada. Aquests models es poden comunicar amb un intèrpret Python per a la verificació de codi, Brave Search i Wolfram Alpha per a preguntes matemàtiques.
Meta vol crear un ecosistema de desenvolupadors al voltant de Llama perquè esdevingui un pilar de la IA generativa. Amb algunes limitacions en el desplegament per a desenvolupadors més grans, la nova llicència permet als desenvolupadors utilitzar els resultats del model per desenvolupar models generatius de tercers. Per tal de facilitar l'ajustament, la producció de dades sintètiques i el desenvolupament d'aplicacions sofisticades, Meta també llança noves eines de seguretat i la API Llama Stack.. )
El CEO Mark Zuckerberg posa un fort èmfasi en la democratització de l'accés a la IA alhora que estableix les tecnologies d'IA de Meta com a normes de la indústria. S'han descarregat més de 300 milions de models de Llama i s'han fet 20.000 models variants, malgrat els problemes legals i les preocupacions per les pràctiques de dades.
Les dificultats energètiques sorgeixen a l'hora d'escalar aquests models, ja que la formació posa una tensió a les xarxes elèctriques. Com que Meta té la intenció de construir models encara més grans en el futur, resoldre aquestes dificultats serà essencial. Amb el llançament de Llama 3.1 405B, Meta ha fet un pas important cap a la seva estratègia d'IA, que pretén superar els límits de la IA generativa i desafiar als competidors.