Meta представляет Llama 3.1 405B: крупнейшую модель искусственного интеллекта с открытым исходным кодом за последние годы

Обновлено на September 02, 2024 2 Прочнет минуты

Llama 3.1 405B, модель искусственного интеллекта с открытым исходным кодом и 405 миллиардами параметров, является крупнейшей моделью, созданной Meta уже выпущено. Это не самая большая модель в целом, но это самая крупная модель с открытым исходным кодом, которая была доступна в последнее время. Используя новые методологии, Llama 3.1 405B, обученная на 16 000 графических процессорах Nvidia H100, может конкурировать с проприетарными моделями высшего уровня, такими как Claude 3.5 Sonnet от Anthropic и GPT-4o от OpenAI. Модель можно загрузить и использовать на платформах облачных вычислений, включая Google Cloud, AWS и Azure. Он также интегрирован в чат-боты в США с помощью WhatsApp и Meta.ai.

Хотя Llama 3.1 405B ограничена текстовой деятельностью, она может выполнять широкий спектр задач, включая кодирование и обобщение многоязычных документов (на английском, немецком, французском, итальянском, португальском, хинди, испанском и тайском языках). Хотя в настоящее время они не являются общедоступными, Meta активно работает над мультимодальными моделями Llama для обработки фотографий, видео и речи. Модель была подкреплена синтетическими данными, что обычно, но вызывает вопросы о потенциальной предвзятости, а затем обучена на уточненной выборке из 15 триллионов токенов.

Модель может эффективно обрабатывать более длинные входные данные и сохранять контекст разговора благодаря контекстному окну на 128 000 токенов. Llama 3.1 8B и Llama 3.1 70B — это модели меньшего размера, которые также могут использовать сторонние инструменты и API для повышения своей адаптируемости в дополнение к расширенным контекстным возможностям. Эти модели могут взаимодействовать с интерпретатором Python для проверки кода, Brave Search и Wolfram Alpha для решения математических вопросов.

Meta хочет создать вокруг Llama экосистему разработчиков, чтобы она стала основой генеративного ИИ. С некоторыми ограничениями на развертывание для более крупных разработчиков новая лицензия позволяет разработчикам использовать выходные данные модели для разработки сторонних генеративных моделей. Чтобы облегчить тонкую настройку, создание синтетических данных и разработку сложных приложений, Meta также выпускает новые инструменты безопасности и Llama Stack API.. )

Генеральный директор Марк Цукерберг уделяет большое внимание демократизации доступа к искусственному интеллекту, одновременно устанавливая технологии искусственного интеллекта Meta в качестве отраслевых норм. Было загружено более 300 миллионов моделей лам и создано 20 000 вариантов моделей, несмотря на юридические проблемы и опасения по поводу практики обработки данных.

При масштабировании этих моделей возникают энергетические трудности, поскольку обучение создает нагрузку на энергосистемы. Поскольку в будущем Meta намерена создавать еще более крупные модели, решение этих трудностей будет иметь важное значение. С выпуском Llama 3.1 405B компания Meta сделала значительный шаг в направлении своей стратегии искусственного интеллекта, цель которой — расширить границы генеративного искусственного интеллекта и бросить вызов конкурентам.