Meta przedstawia Llamę 3.1 405B: największy model sztucznej inteligencji typu open source w ostatnich latach

Zaktualizowano na July 24, 2024 2 Przeczytaj minuty

Llama 3.1 405B, model sztucznej inteligencji typu open source z 405 miliardami parametrów, to największy model, jaki Meta zostało dotychczas wydane. Nie jest to ogólnie największy model, ale jest to największy model open source, jaki został ostatnio udostępniony. Wykorzystując nowe metodologie, Llama 3.1 405B, trenowana na 16 000 procesorów graficznych Nvidia H100, może konkurować z czołowymi, zastrzeżonymi modelami, takimi jak Claude 3.5 Sonnet firmy Anthropic i GPT-4o firmy OpenAI. Model można pobrać i używać na platformach przetwarzania w chmurze, w tym Google Cloud, AWS i Azure. Jest również zintegrowany z chatbotami w Stanach Zjednoczonych za pomocą WhatsApp i Meta.ai.

Choć ogranicza się do działań tekstowych, Llama 3.1 405B może wykonywać szeroki zakres zadań, w tym kodowanie i wielojęzyczne podsumowania dokumentów (w języku angielskim, niemieckim, francuskim, włoskim, portugalskim, hindi, hiszpańskim i tajskim). Chociaż nie są one obecnie publicznie dostępne, Meta aktywnie pracuje nad multimodalnymi modelami lamy do obsługi zdjęć, filmów i mowy. Model został wzmocniony danymi syntetycznymi, co jest typowe, ale rodzi pytania dotyczące potencjalnej stronniczości, a następnie przeszkolony na udoskonalonej próbie 15 bilionów tokenów.

Model może skutecznie obsługiwać dłuższe dane wejściowe i zachować kontekst konwersacji dzięki oknu kontekstowemu zawierającemu 128 000 tokenów. Llama 3.1 8B i Llama 3.1 70B to mniejsze modele, które oprócz rozszerzonych możliwości kontekstowych mogą również wykorzystywać narzędzia i interfejsy API innych firm w celu zwiększenia możliwości adaptacji. Modele te mogą komunikować się z interpreterem Python w celu sprawdzania kodu, Brave Search i Wolfram Alpha w przypadku pytań matematycznych.

Meta chce stworzyć ekosystem deweloperski wokół Lamy, tak aby stał się filarem generatywnej AI. Z pewnymi ograniczeniami dotyczącymi wdrażania w przypadku większych programistów, nowa licencja umożliwia programistom korzystanie z wyników modelu do opracowywania modeli generatywnych innych firm. Aby ułatwić dostrajanie, tworzenie syntetycznych danych i opracowywanie zaawansowanych aplikacji, Meta udostępnia także nowe narzędzia bezpieczeństwa i Llama Stack API.

Dyrektor generalny Mark Zuckerberg kładzie duży nacisk na demokratyzację dostępu do sztucznej inteligencji, jednocześnie ustanawiając technologie AI firmy Meta jako normy branżowe. Pomimo problemów prawnych i obaw związanych z praktykami dotyczącymi danych pobrano ponad 300 milionów modeli lamy i stworzono 20 000 wariantów modeli.

Podczas skalowania tych modeli pojawiają się trudności energetyczne, ponieważ szkolenie obciąża sieci energetyczne. Ponieważ Meta zamierza w przyszłości budować jeszcze większe modele, rozwiązanie tych trudności będzie niezbędne. Wraz z wydaniem wersji Llama 3.1 405B firma Meta zrobiła znaczący krok w kierunku swojej strategii sztucznej inteligencji, której celem jest przesuwanie granic generatywnej sztucznej inteligencji i rzucanie wyzwanie konkurencji.