„Meta“ pristato „Llama 3.1 405B“: didžiausią atvirojo kodo AI modelį pastaraisiais metais

Atnaujinta September 06, 2024 2 Perskaityta minučių

Llama 3.1 405B, atvirojo kodo AI modelis su 405 milijardais parametrų, yra didžiausias Meta iki šiol buvo išleista. Tai nėra didžiausias modelis apskritai, bet tai yra didžiausias atvirojo kodo modelis, kuris neseniai buvo prieinamas. Naudojant naujas metodikas, Llama 3.1 405B, parengtas naudojant 16 000 Nvidia H100 GPU, gali konkuruoti su aukščiausios klasės patentuotais modeliais, tokiais kaip Anthropic Claude 3.5 Sonnet ir OpenAI GPT-4o. Modelį galima atsisiųsti ir naudoti debesų kompiuterijos platformose, įskaitant Google Cloud, AWS ir Azure. Jis taip pat integruotas į pokalbių robotus JAV, naudojant WhatsApp ir Meta.ai.

Nors ji apsiriboja tekstu pagrįsta veikla, „Llama 3.1 405B“ gali atlikti daugybę užduočių, įskaitant kodavimą ir daugiakalbį dokumentų santrauką (anglų, vokiečių, prancūzų, italų, portugalų, hindi, ispanų ir tajų kalbomis). Nors šiuo metu jie nėra viešai prieinami, Meta aktyviai dirba su multimodaliniais Llama modeliais, kad galėtų apdoroti nuotraukas, vaizdo įrašus ir kalbą. Modelis buvo sustiprintas sintetiniais duomenimis, o tai yra įprasta, tačiau kelia klausimų dėl galimo šališkumo, o vėliau buvo parengtas pagal patobulintą 15 trilijonų žetonų pavyzdį.

Modelis gali efektyviai apdoroti ilgesnes įvestis ir išlaikyti pokalbio kontekstą dėl 128 000 žetonų konteksto lango. „Llama 3.1 8B“ ir „Llama 3.1 70B“ yra mažesni modeliai, kurie taip pat gali naudoti trečiųjų šalių įrankius ir API, kad padidintų jų pritaikymą, be šios išplėstinės konteksto galimybės. Šie modeliai gali susisiekti su Python interpretatoriumi, kad būtų galima patikrinti kodą, „Brave Search“ ir „Wolfram Alpha“ matematiniams klausimams spręsti.

Meta nori sukurti kūrėjų ekosistemą aplink Lamą, kad ji taptų generatyvaus AI ramsčiu. Su tam tikrais didesnių kūrėjų diegimo apribojimais, naujoji licencija leidžia kūrėjams naudoti modelio išvestis trečiųjų šalių generuojamiesiems modeliams kurti. Siekdama palengvinti koregavimą, sintetinių duomenų kūrimą ir sudėtingų programų kūrimą, Meta taip pat išleidžia naujus saugos įrankius ir Llama Stack API.

Generalinis direktorius Markas Zuckerbergas daug dėmesio skiria prieigos prie dirbtinio intelekto demokratizavimui, kartu nustatydamas „Meta“ AI technologijas kaip pramonės normas. Nepaisant teisinių problemų ir nerimo dėl duomenų naudojimo, buvo atsisiųsta daugiau nei 300 milijonų „Llama“ modelių ir sukurta 20 000 variantų.

Keičiant šiuos modelius kyla energijos sunkumų, nes treniruotės apkrauna elektros tinklus. Kadangi „Meta“ ateityje ketina kurti dar didesnius modelius, būtina išspręsti šiuos sunkumus. Išleisdama „Llama 3.1 405B“, „Meta“ žengė reikšmingą žingsnį link savo dirbtinio intelekto strategijos, kuria siekiama peržengti generatyvaus AI ribas ir mesti iššūkį konkurentams.