У гонитві за копіюванням людського інтелекту гонка озброєнь штучного інтелекту спочатку зосередилася на створенні масивних моделей, навчених на великих наборах даних. Однак останнім часом відбувся помітний зсув, коли технічні гіганти та стартапи все більше спрямовують свою увагу на більш оптимізоване та спеціалізоване програмне забезпечення штучного інтелекту, яке є дешевшим і швидшим.
Ці мовні моделі меншого та середнього розміру, спеціально розроблені для конкретних завдань і навчені з меншою кількістю даних, набули значної популярності. На відміну від своїх більших аналогів, їх можна розробити за ціною менше 10 мільйонів доларів і використовувати менше ніж 10 мільярдів параметрів. Для порівняння, GPT-4o від OpenAI, одна з найбільших моделей, вимагала понад 100 мільйонів доларів на побудову та використовувала понад один трильйон параметрів. Менший розмір цих моделей призводить до менших вимог до обчислювальної потужності та зниження ціни за запит.
Наприклад, Microsoft зробила акцент на сімействі невеликих моделей Phi. Сатья Наделла, генеральний директор Microsoft, стверджує, що ці моделі становлять 1/100 розміру моделі, що стоїть за ChatGPT OpenAI, але вони можуть виконувати багато завдань з порівнянною ефективністю. Юсуф Мехді, комерційний директор Microsoft, підкреслює потребу в різних моделях для різних завдань, посилаючись на вищі, ніж очікувалося, витрати, пов’язані з використанням великих моделей. Крім того, Microsoft нещодавно представила ноутбуки зі штучним інтелектом, які використовують численні моделі ШІ для пошуку та створення зображень. Ці моделі працюють на самому пристрої, не покладаючись на великі хмарні суперкомп’ютери, як у випадку з ChatGPT.
Інші корпорації, такі як Google, і стартапи зі штучного інтелекту, такі як Mistral, Anthropic і Cohere, також випустили менші моделі. Крім того, Apple оприлюднила плани щодо інтеграції невеликих моделей для підвищення швидкості та безпеки операцій ШІ на телефонах.
OpenAI, відомий тим, що підтримує великі моделі, випустив більш доступну версію своєї флагманської моделі та має намір зосередитися на розробці менших моделей у майбутньому. Великі моделі виявляються надмірними для таких завдань, як узагальнення документів або створення зображень, подібно до використання бака для простого походу за продуктами. З іншого боку, менші моделі можуть запропонувати порівнянну продуктивність за значно нижчою ціною. Ці моделі часто пристосовані для конкретних завдань, як-от керування юридичними документами чи внутрішньою комунікацією. Йоав Шохам з AI21 Labs стверджує, що малі моделі є більш економічно доцільними для широкого використання, коштуючи лише незначну частину того, що передбачали б великі моделі, але давали відповіді на запитання.
Підприємства охоче використовують ці менші моделі для підвищення ефективності та зниження витрат. Наприклад, Experian перейшов на менші моделі для своїх чат-ботів зі штучним інтелектом і досяг продуктивності, подібної до більших моделей, але за менших витрат. Клара Ших із Salesforce підкреслює практичність менших моделей, оскільки моделі часто призводять до надмірних витрат і проблем із затримкою.
З моменту випуску GPT-4 компанією OpenAI не було значних успіхів у розробці великих моделей, що призвело до стагнації прогресу. Отже, зусилля були перенаправлені на підвищення ефективності менших моделей. Себастьян Бубек з Microsoft зауважує, що зараз у великих розробках спостерігається пауза, і заохочує зусилля для підвищення ефективності.
Незважаючи на цю зміну, великі моделі все ще мають цінність для складних завдань. Такі компанії, як Apple і Microsoft, продовжують включати великі моделі, такі як як ChatGPT у свої продукти, хоча ці інтеграції зазвичай становлять лише частину їхніх загальних ініціатив ШІ. Цей прогрес означає перетворення ШІ з футуристичних демонстрацій на практичну рекламу.