Meta представляє Llama 3.1 405B: найбільшу модель ШІ з відкритим кодом за останні роки

Meta представляє Llama 3.1 405B: найбільшу модель ШІ з відкритим кодом за останні роки

Llama 3.1 405B, модель штучного інтелекту з відкритим кодом із 405 мільярдами параметрів, є найбільшою моделлю, яку Meta випущено на даний момент. Це не найбільша модель загалом, але це найбільша модель з відкритим кодом, яка нещодавно була доступна. Використовуючи нові методології, Llama 3.1 405B, навчений на 16 000 графічних процесорах Nvidia H100, може конкурувати з власними моделями найвищого рівня, такими як Claude 3.5 Sonnet від Anthropic і GPT-4o від OpenAI. Модель можна завантажити та використовувати на платформах хмарних обчислень, включаючи Google Cloud, AWS і Azure. Його також інтегровано в чат-боти в Сполучених Штатах за допомогою WhatsApp і Meta.ai.

Незважаючи на те, що Llama 3.1 405B обмежується текстовими діями, він може виконувати широкий спектр завдань, включаючи кодування та багатомовне підсумовування документів (англійською, німецькою, французькою, італійською, португальською, гінді, іспанською та тайською мовами). Хоча наразі вони не є загальнодоступними, Meta активно працює над мультимодальними моделями Llama для обробки фотографій, відео та мови. Модель було підкріплено синтетичними даними, які є звичайними, але викликають сумніви щодо потенційної упередженості, а потім навчено на уточненій вибірці з 15 трильйонів токенів.

Модель може ефективно обробляти довші введення та зберігати контекст розмови завдяки вікну контексту з 128 000 токенів. Llama 3.1 8B і Llama 3.1 70B є меншими моделями, які також можуть використовувати сторонні інструменти та API для підвищення своєї адаптивності на додаток до цієї можливості розширеного контексту. Ці моделі можуть спілкуватися з інтерпретатором Python для перевірки коду, Brave Search і Wolfram Alpha для математичних запитань.

Meta хоче створити екосистему розробників навколо Llama, щоб вона стала опорою генеративного ШІ. З деякими обмеженнями щодо розгортання для великих розробників, нова ліцензія дозволяє розробникам використовувати вихідні дані моделі для розробки генеративних моделей сторонніх розробників. Щоб полегшити тонке налаштування, створення синтетичних даних і розробку складних програм, Meta також випускає нові інструменти безпеки та API Llama Stack.. )

Генеральний директор Марк Цукерберг наголошує на демократизації доступу до штучного інтелекту, водночас встановлюючи технології штучного інтелекту Meta як галузеві норми. Понад 300 мільйонів моделей Llama було завантажено та створено 20 000 варіантів моделей, незважаючи на юридичні проблеми та занепокоєння щодо використання даних.

Під час масштабування цих моделей виникають енергетичні труднощі, оскільки навчання створює навантаження на електромережі. Оскільки Meta має намір створювати ще більші моделі в майбутньому, вирішення цих труднощів буде дуже важливим. З випуском Llama 3.1 405B Meta зробила значний крок у напрямку своєї стратегії штучного інтелекту, яка має на меті розширити межі генеративного штучного інтелекту та кинути виклик конкурентам.

Code Labs Academy © 2024 Всі права захищені.