Meta představila Llama 3.1 405B: Největší model umělé inteligence s otevřeným zdrojovým kódem v posledních letech

Aktualizováno na August 07, 2024 2 minuty čte

Llama 3.1 405B, open-source model umělé inteligence se 405 miliardami parametrů, je největším modelem, který Meta zatím vyšlo. Není to celkově největší model, ale je to největší open-source model, který byl nedávno zpřístupněn. S využitím nových metodologií může Llama 3.1 405B, trénovaná na 16 000 GPU Nvidia H100, konkurovat špičkovým proprietárním modelům, jako je Claude 3.5 Sonnet od Anthropic a GPT-4o od OpenAI. Model lze stáhnout a používat na platformách cloud computingu včetně Google Cloud, AWS a Azure. Je také integrován do chatbotů ve Spojených státech pomocí WhatsApp a Meta.ai.

Ačkoli je Llama 3.1 405B omezena na textové aktivity, může provádět širokou škálu úloh, včetně kódování a vícejazyčného shrnutí dokumentů (v angličtině, němčině, francouzštině, italštině, portugalštině, hindštině, španělštině a thajštině). I když tyto nejsou v současné době veřejně přístupné, Meta aktivně pracuje na multimodálních modelech Llama pro zpracování fotografií, videí a řeči. Model byl posílen syntetickými daty, což je obvyklé, ale vyvolává otázky ohledně potenciálního zkreslení, a poté trénován na rafinovaném vzorku 15 bilionů tokenů.

Model dokáže efektivně zpracovávat delší vstupy a udržovat kontext konverzace díky svému kontextovému oknu se 128 000 tokeny. Llama 3.1 8B a Llama 3.1 70B jsou menší modely, které mohou kromě této rozšířené kontextové schopnosti využívat také nástroje a rozhraní API třetích stran ke zvýšení jejich přizpůsobivosti. Tyto modely mohou komunikovat s Python interpretem pro kontrolu kódu, Brave Search a Wolfram Alpha pro matematické otázky.

Meta chce kolem Llamy vytvořit vývojářský ekosystém, aby se stala pilířem generativní umělé inteligence. S určitými omezeními nasazení pro větší vývojáře umožňuje nová licence vývojářům používat výstupy modelů pro vývoj generativních modelů třetích stran. S cílem usnadnit jemné ladění, produkci syntetických dat a vývoj sofistikovaných aplikací vydává Meta také nové bezpečnostní nástroje a Llama Stack API.

Generální ředitel Mark Zuckerberg klade velký důraz na demokratizaci přístupu k AI a zároveň zavádí technologie AI společnosti Meta jako průmyslové normy. Přes 300 milionů modelů Llama bylo staženo a bylo vyrobeno 20 000 variant modelů, a to navzdory právním problémům a obavám ohledně datových praktik.

Energetické potíže vznikají při škálování těchto modelů, protože školení zatěžuje energetické sítě. Vzhledem k tomu, že Meta hodlá v budoucnu stavět ještě větší modely, bude řešení těchto potíží zásadní. S vydáním Llama 3.1 405B udělala Meta významný krok ke své strategii umělé inteligence, jejímž cílem je posunout hranice generativní umělé inteligence a postavit se konkurentům.