Большие преимущества небольших моделей искусственного интеллекта для технологических гигантов

Большие преимущества небольших моделей искусственного интеллекта для технологических гигантов

В стремлении воспроизвести человеческий интеллект гонка вооружений в области искусственного интеллекта изначально была сосредоточена на создании массивных моделей, обученных на обширных наборах данных. Однако в последнее время произошел заметный сдвиг: технологические гиганты и стартапы все чаще обращают свое внимание на более оптимизированное и специализированное программное обеспечение для искусственного интеллекта, которое дешевле и быстрее.

Эти языковые модели меньшего и среднего размера, специально разработанные для конкретных задач и обученные с использованием меньшего количества данных, приобрели значительную популярность. В отличие от своих более крупных аналогов, их разработка может стоить менее 10 миллионов долларов и использовать менее 10 миллиардов параметров. Для сравнения, GPT-4o OpenAI, одна из крупнейших моделей, потребовала более 100 миллионов долларов для создания и использования более одного триллиона параметров. Меньший размер этих моделей приводит к снижению требований к вычислительной мощности и снижению цен на запрос.

Например, Microsoft сделала упор на семейство небольших моделей Phi. Сатья Наделла, генеральный директор Microsoft, утверждает, что эти модели составляют 1/100 размера модели ChatGPT OpenAI, но они могут решать многие задачи с сопоставимой эффективностью. Юсуф Мехди, коммерческий директор Microsoft, подчеркивает необходимость использования отдельных моделей для разных задач, ссылаясь на более высокие, чем ожидалось, затраты, связанные с использованием больших моделей. Кроме того, Microsoft недавно представила ноутбуки с искусственным интеллектом, которые используют многочисленные модели искусственного интеллекта для поиска и создания изображений. Эти модели работают на самом устройстве, не полагаясь на обширные облачные суперкомпьютеры, как в случае с ChatGPT.

Другие корпорации, такие как Google, и стартапы в области искусственного интеллекта, такие как Mistral, Anthropic и Cohere, также выпустили модели меньшего размера. Кроме того, Apple обнародовала планы по интеграции небольших моделей для повышения скорости и безопасности операций искусственного интеллекта на телефонах.

OpenAI, известная своей поддержкой больших моделей, выпустила более доступную версию своей флагманской модели и намерена в будущем сосредоточиться на разработке моделей меньшего размера. Большие модели оказываются избыточными для таких задач, как обобщение документов или создание изображений, аналогично использованию танка для простой поездки за продуктами. С другой стороны, модели меньшего размера могут предложить сопоставимую производительность при значительно более низкой цене. Эти модели часто предназначены для конкретных задач, таких как управление юридическими документами или внутренние коммуникации. Йоав Шохам из AI21 Labs утверждает, что небольшие модели более экономически целесообразны для широкого использования, поскольку их стоимость составляет лишь часть стоимости больших моделей, но при этом они дают ответы на вопросы.

Предприятия с готовностью внедряют эти более мелкие модели для повышения эффективности и снижения затрат. Например, Experian перешла на меньшие модели для своих чат-ботов с искусственным интеллектом и добилась производительности, аналогичной более крупным моделям, но с меньшими затратами. Клара Ши из Salesforce подчеркивает практичность моделей меньшего размера, поскольку модели часто приводят к чрезмерным расходам и проблемам с задержками.

С момента выпуска GPT-4 компанией OpenAI не произошло никаких значительных успехов в разработке крупных моделей, что привело к стагнации прогресса. Следовательно, усилия были перенаправлены на повышение эффективности меньших моделей. Себастьян Бюбек из Microsoft отмечает текущую паузу в крупных разработках и поощряет усилия по повышению эффективности.

Несмотря на этот сдвиг, большие модели по-прежнему имеют ценность для сложных задач. Такие компании, как Apple и Microsoft, продолжают внедрять крупные модели, такие как как ChatGPT в свои продукты, хотя эта интеграция обычно представляет собой лишь часть их общих инициатив в области искусственного интеллекта. Этот прогресс означает трансформацию ИИ от футуристических демонстраций к практической рекламе.

Code Labs Academy © 2025 Все права защищены.