Meta avslöjar Llama 3.1 405B: Den största AI-modellen med öppen källkod under de senaste åren

Uppdaterad på July 24, 2024 2 minuter läst

Llama 3.1 405B, en AI-modell med öppen källkod med 405 miljarder parametrar, är den största modellen som Meta har släppts hittills. Det är inte den största modellen totalt sett, men det är den största modellen med öppen källkod som har gjorts tillgänglig nyligen. Med hjälp av nya metoder kan Llama 3.1 405B, utbildad på 16 000 Nvidia H100 GPU:er, konkurrera med toppklassiga proprietära modeller som Anthropics Claude 3.5 Sonnet och OpenAI:s GPT-4o. Modellen kan laddas ner och användas på cloud computing-plattformar inklusive Google Cloud, AWS och Azure. Den är också integrerad i chatbots i USA med hjälp av WhatsApp och Meta.ai.

Även om det är begränsat till textbaserade aktiviteter, kan Llama 3.1 405B utföra ett brett utbud av uppgifter, inklusive kodning och flerspråkig dokumentsammanfattning (på engelska, tyska, franska, italienska, portugisiska, hindi, spanska och thailändska). Även om dessa för närvarande inte är offentligt tillgängliga, arbetar Meta aktivt med multimodala lamamodeller för att hantera foton, videor och tal. Modellen förstärktes med syntetisk data, vilket är vanligt men väcker frågor om potentiell fördom, och tränades sedan på ett förfinat prov på 15 biljoner tokens.

Modellen kan effektivt hantera längre inmatningar och behålla konversationskontext tack vare dess 128 000 tokens kontextfönster. Llama 3.1 8B och Llama 3.1 70B är mindre modeller som även kan använda tredjepartsverktyg och API:er för att öka sin anpassningsförmåga förutom att ha denna utökade kontextkapacitet. Dessa modeller kan kommunicera med en Python tolk för kodkontroll, Brave Search och Wolfram Alpha för matematiska frågor.

Meta vill skapa ett utvecklarekosystem runt Llama så att det blir en pelare i generativ AI. Med vissa begränsningar för distribution för större utvecklare tillåter den nya licensen utvecklare att använda modellutgångar för att utveckla generativa modeller från tredje part. För att underlätta finjustering, producera syntetisk data och utveckla sofistikerade applikationer släpper Meta även nya säkerhetsverktyg och Llama Stack API.

VD Mark Zuckerberg lägger stor vikt vid att demokratisera tillgången till AI samtidigt som Metas AI-teknologier etableras som branschnormer. Över 300 miljoner Llama-modeller har laddats ner och 20 000 variantmodeller har gjorts, trots juridiska problem och oro över datapraxis.

Energisvårigheter uppstår vid skalning av dessa modeller eftersom träning belastar elnäten. Eftersom Meta har för avsikt att bygga ännu större modeller i framtiden kommer det att vara viktigt att lösa dessa svårigheter. Med lanseringen av Llama 3.1 405B har Meta tagit ett betydande steg mot sin AI-strategi, som syftar till att tänja på gränserna för generativ AI och utmana konkurrenter.