Siekiant atkartoti žmogaus intelektą, dirbtinio intelekto ginklavimosi lenktynės iš pradžių buvo sutelktos į didžiulių modelių, parengtų remiantis dideliais duomenų rinkiniais, kūrimą. Tačiau pastaruoju metu įvyko pastebimas pokytis – technologijų gigantai ir startuoliai vis dažniau kreipia dėmesį į labiau supaprastintą ir specializuotą AI programinę įrangą, kuri yra pigesnė ir greitesnė.
Šie mažesni ir vidutinio dydžio kalbų modeliai, specialiai sukurti konkrečioms užduotims atlikti ir apmokyti naudojant mažiau duomenų, sulaukė didelio populiarumo. Skirtingai nuo didesnių kolegų, jie gali būti sukurti už mažiau nei 10 milijonų JAV dolerių ir naudoti mažiau nei 10 milijardų parametrų. Palyginimui, OpenAI's GPT-4o, vienam didžiausių modelių, sukurti prireikė daugiau nei 100 mln. USD ir naudojo daugiau nei vieną trilijoną parametrų. Mažesnis šių modelių dydis reiškia mažesnius skaičiavimo galios reikalavimus ir mažesnes užklausos kainas.
Pavyzdžiui, „Microsoft“ akcentavo savo mažų modelių „Phi“ šeimą. Satya Nadella, „Microsoft“ generalinė direktorė, tvirtina, kad šie modeliai yra 1/100 modelio dydžio už OpenAI ChatGPT, tačiau jie gali atlikti daugybę užduočių su panašiu efektyvumu. Yusufas Mehdi, „Microsoft“ komercijos vadovas, pabrėžia, kad skirtingoms užduotims reikia skirtingų modelių, nurodydamas didesnes nei tikėtasi išlaidas, susijusias su didelių modelių valdymu. Be to, Microsoft neseniai pristatė AI nešiojamuosius kompiuterius, kuriuose paieškai ir vaizdams generuoti naudojama daugybė AI modelių. Šie modeliai veikia pačiame įrenginyje, nepasitikėdami dideliais debesų kompiuteriais paremtais superkompiuteriais, kaip tai daroma su ChatGPT.
Kitos korporacijos, tokios kaip „Google“ ir AI startuoliai, tokie kaip „Mistral“, „Anthropic“ ir „Cohere“, taip pat išleido mažesnius modelius. Be to, „Apple“ pristatė planus integruoti mažus modelius, kad padidintų AI operacijų greitį ir saugumą telefonuose.
„OpenAI“, garsėjanti didelių modelių šalininkais, išleido pigesnę savo pavyzdinio modelio versiją ir ateityje ketina sutelkti dėmesį į mažesnių modelių kūrimą. Dideli modeliai yra pertekliniai atliekant tokias užduotis kaip dokumentų apibendrinimas ar vaizdų generavimas, panašiai kaip naudojant baką paprastai apsipirkti bakalėjos parduotuvėse. Kita vertus, mažesni modeliai gali pasiūlyti panašų našumą už žymiai mažesnę kainą. Šie modeliai dažnai yra pritaikyti konkrečioms užduotims, pvz., teisinių dokumentų tvarkymui ar vidinei komunikacijai. Yoav Shoham iš „AI21 Labs“ tvirtina, kad maži modeliai yra ekonomiškesni plačiam naudojimui, nes jie kainuoja tik dalį to, ką turėtų dideli modeliai, o atsakymus į klausimus.
Įmonės lengvai imasi šių mažesnių modelių, kad padidintų efektyvumą ir sumažintų išlaidas. Pavyzdžiui, „Experian“ perėjo prie mažesnių AI pokalbių robotų modelių ir pasiekė panašų našumą kaip ir didesni modeliai, tačiau mažesnėmis sąnaudomis. „Salesforce“ Clara Shih pabrėžia mažesnių modelių praktiškumą, nes modeliai dažnai sukelia pernelyg didelių išlaidų ir delsos problemų.
Nuo tada, kai „OpenAI“ išleido GPT-4, didelių modelių kūrimo srityje nebuvo padaryta jokių reikšmingų pažangų, todėl pažanga sustojo. Todėl pastangos buvo nukreiptos į mažesnių modelių efektyvumo didinimą. Sébastienas Bubeckas iš „Microsoft“ pastebi dabartinę didelės plėtros pauzę ir skatina dėti pastangas didinti efektyvumą.
Nepaisant šio pokyčio, dideli modeliai vis dar yra vertingi sudėtingoms užduotims atlikti. Tokios įmonės kaip Apple ir „Microsoft“ ir toliau įtraukia didelius modelius, tokius kaip kaip ChatGPT į savo produktus, nors šios integracijos paprastai sudaro tik dalį jų bendrų AI iniciatyvų. Šis progresas reiškia AI transformaciją iš futuristinių demonstracijų į praktines reklamas.