Meta dezvăluie Llama 3.1 405B: cel mai mare model AI open-source din ultimii ani

Actualizat pe September 03, 2024 3 Minute citite

Llama 3.1 405B, un model AI open-source cu 405 miliarde de parametri, este cel mai mare model pe care Meta a fost lansat până acum. Nu este cel mai mare model în general, dar este cel mai mare model open-source care a fost pus la dispoziție recent. Folosind noi metodologii, Llama 3.1 405B, antrenat pe 16.000 de GPU-uri Nvidia H100, poate rivaliza cu modelele proprietare de top, cum ar fi Claude 3.5 Sonnet de la Anthropic și GPT-4o de la OpenAI. Modelul poate fi descărcat și utilizat pe platforme de cloud computing, inclusiv Google Cloud, AWS și Azure. De asemenea, este integrat în chatbot-urile din Statele Unite folosind WhatsApp și Meta.ai.

Deși este limitat la activități bazate pe text, Llama 3.1 405B poate executa o gamă largă de sarcini, inclusiv codificare și rezumarea documentelor în mai multe limbi (în engleză, germană, franceză, italiană, portugheză, hindi, spaniolă și thailandeză). Deși acestea nu sunt în prezent accesibile public, Meta lucrează activ la modele multimodale Llama pentru a gestiona fotografii, videoclipuri și vorbire. Modelul a fost consolidat cu date sintetice, ceea ce este obișnuit, dar ridică întrebări cu privire la potențialele părtiniri, apoi a fost antrenat pe un eșantion rafinat de 15 trilioane de jetoane.

Modelul poate gestiona eficient intrări mai lungi și poate păstra contextul conversației datorită ferestrei sale de context de 128.000 de simboluri. Llama 3.1 8B și Llama 3.1 70B sunt modele mai mici care pot utiliza, de asemenea, instrumente și API-uri terță parte pentru a-și spori adaptabilitatea, în plus față de această capacitate de context extinsă. Aceste modele pot comunica cu un interpret Python pentru verificarea codului, Brave Search și Wolfram Alpha pentru întrebări matematice.

Meta vrea să creeze un ecosistem de dezvoltatori în jurul lui Llama, astfel încât acesta să devină un pilon al IA generativă. Cu unele limitări ale implementării pentru dezvoltatori mai mari, noua licență le permite dezvoltatorilor să utilizeze rezultatele modelului pentru dezvoltarea modelelor generative terță parte. Pentru a facilita reglarea fină, producerea de date sintetice și dezvoltarea de aplicații sofisticate, Meta lansează, de asemenea, noi instrumente de siguranță și API-ul Llama Stack.. )

CEO-ul Mark Zuckerberg pune un accent puternic pe democratizarea accesului la AI, stabilind în același timp tehnologiile AI ale Meta ca norme industriale. Au fost descărcate peste 300 de milioane de modele Llama și au fost realizate 20.000 de modele variante, în ciuda problemelor legale și a îngrijorărilor legate de practicile de date.

Dificultăți energetice apar la scalarea acestor modele, deoarece antrenamentul pune o presiune asupra rețelelor electrice. Deoarece Meta intenționează să construiască modele și mai mari în viitor, rezolvarea acestor dificultăți va fi esențială. Odată cu lansarea Llama 3.1 405B, Meta a făcut un pas semnificativ către strategia sa de AI, care își propune să depășească limitele AI generative și să provoace concurenții.