Meta прадстаўляе Llama 3.1 405B: самую вялікую мадэль штучнага інтэлекту з адкрытым зыходным кодам за апошнія гады

Абноўлены на September 24, 2024 2 Прачытаныя хвіліны

Llama 3.1 405B, мадэль штучнага інтэлекту з адкрытым зыходным кодам і 405 мільярдамі параметраў, з’яўляецца самай вялікай мадэллю, якая Meta выпушчана да гэтага часу. Гэта не самая вялікая мадэль у цэлым, але гэта самая вялікая мадэль з адкрытым зыходным кодам, якая была даступная за апошні час. Выкарыстоўваючы новыя метадалогіі, Llama 3.1 405B, навучаны на 16 000 графічных працэсарах Nvidia H100, можа супернічаць з прапрыетарнымі мадэлямі вышэйшага ўзроўню, такімі як Claude 3.5 Sonnet ад Anthropic і GPT-4o ад OpenAI. Мадэль можна спампаваць і выкарыстоўваць на платформах воблачных вылічэнняў, уключаючы Google Cloud, AWS і Azure. Ён таксама інтэграваны ў чат-боты ў Злучаных Штатах з дапамогай WhatsApp і Meta.ai.

Нягледзячы на тое, што Llama 3.1 405B абмяжоўваецца тэкставымі дзеяннямі, ён можа выконваць шырокі спектр задач, у тым ліку кадзіраванне і падсумаванне шматмоўных дакументаў (на англійскай, нямецкай, французскай, італьянскай, партугальскай, хіндзі, іспанскай і тайскай мовах). Нягледзячы на тое, што яны зараз недаступныя для грамадскасці, Meta актыўна працуе над мультымадальнымі мадэлямі Llama для працы з фота, відэа і маўленнем. Мадэль была ўзмоцнена сінтэтычнымі дадзенымі, якія з’яўляюцца звычайнымі, але выклікаюць пытанні аб патэнцыйнай прадузятасці, затым навучана на ўдакладненай выбарцы з 15 трыльёнаў токенаў.

Мадэль можа эфектыўна апрацоўваць больш працяглы ўвод і захоўваць кантэкст размовы дзякуючы кантэкстнаму акну з 128 000 маркераў. Llama 3.1 8B і Llama 3.1 70B - гэта меншыя мадэлі, якія могуць таксама выкарыстоўваць інструменты і API іншых вытворцаў для павышэння іх адаптыўнасці ў дадатак да магчымасці пашыранага кантэксту. Гэтыя мадэлі могуць звязвацца з інтэрпрэтатарам Python для праверкі кода, Brave Search і Wolfram Alpha для матэматычных пытанняў.

Meta хоча стварыць экасістэму распрацоўшчыкаў вакол Llama, каб яна стала апорай генератыўнага штучнага інтэлекту. З некаторымі абмежаваннямі па разгортванні для буйных распрацоўшчыкаў, новая ліцэнзія дазваляе распрацоўшчыкам выкарыстоўваць выхады мадэляў для распрацоўкі генератыўных мадэляў іншых вытворцаў. Каб палегчыць тонкую наладу, стварэнне сінтэтычных даных і распрацоўку складаных прыкладанняў, Meta таксама выпускае новыя інструменты бяспекі і API Llama Stack.. )

Генеральны дырэктар Марк Цукерберг робіць моцны акцэнт на дэмакратызацыі доступу да штучнага інтэлекту, адначасова ўсталёўваючы тэхналогіі штучнага інтэлекту Meta ў якасці галіновых нормаў. Было спампавана больш за 300 мільёнаў мадэляў Llama і створана 20 000 варыянтаў мадэляў, нягледзячы на прававыя праблемы і праблемы з выкарыстаннем дадзеных.

Энергетычныя цяжкасці ўзнікаюць пры маштабаванні гэтых мадэляў, паколькі навучанне стварае нагрузку на электрасеткі. Паколькі Meta мае намер будаваць яшчэ большыя мадэлі ў будучыні, рашэнне гэтых цяжкасцей будзе вельмі важным. З выпускам Llama 3.1 405B Meta зрабіла значны крок да сваёй стратэгіі штучнага інтэлекту, якая накіравана на пашырэнне межаў генератыўнага штучнага інтэлекту і кіданне канкурэнтаў.