Stora fördelar med små AI-modeller för tekniska jättar

Stora fördelar med små AI-modeller för tekniska jättar

I jakten på att replikera mänsklig intelligens centrerades kapprustningen med artificiell intelligens initialt kring skapandet av massiva modeller tränade på omfattande datauppsättningar. Det har dock skett en anmärkningsvärd förändring på senare tid, där teknikjättar och startups i allt högre grad riktar sin uppmärksamhet mot mer strömlinjeformad och specialiserad AI-mjukvara som är billigare och snabbare.

Dessa mindre och medelstora språkmodeller, speciellt utformade för specifika uppgifter och tränade med mindre data, har vunnit betydande popularitet. Till skillnad från sina större motsvarigheter kan de utvecklas för en kostnad på under 10 miljoner dollar och använda färre än 10 miljarder parametrar. Som jämförelse, OpenAI:s GPT-4o, en av de största modellerna, krävde över 100 miljoner dollar för att konstruera och använde mer än en biljon parametrar. Den mindre storleken på dessa modeller leder till lägre krav på beräkningskraft och lägre priser per fråga.

Till exempel har Microsoft lagt vikt vid sin Phi-familj av små modeller. Satya Nadella, VD för Microsoft, hävdar att dessa modeller är 1/100 av storleken på modellen bakom OpenAI:s ChatGPT, men de kan hantera många uppgifter med jämförbar effektivitet. Yusuf Mehdi, Microsofts Chief Commercial Officer, förstärker behovet av distinkta modeller för olika uppgifter, med hänvisning till de högre än förväntade kostnaderna för att köra stora modeller. Dessutom har Microsoft nyligen introducerat AI-bärbara datorer som använder många AI-modeller för sökning och bildgenerering. Dessa modeller fungerar på själva enheten utan att förlita sig på omfattande molnbaserade superdatorer, vilket är fallet med ChatGPT.

Andra företag som Google och AI-startups som Mistral, Anthropic och Cohere har också släppt mindre modeller. Dessutom har Apple avslöjat planer på att integrera små modeller för att förbättra hastigheten och säkerheten för AI-operationer på telefoner.

OpenAI, känt för att förespråka stora modeller, har lanserat en mer prisvärd version av sin flaggskeppsmodell och har för avsikt att fokusera på att utveckla mindre modeller i framtiden. Stora modeller visar sig vara överdrivna för uppgifter som dokumentsammanfattning eller bildgenerering, liknande att använda en tank för en enkel matinköpsresa. Mindre modeller kan å andra sidan erbjuda jämförbar prestanda till en betydligt lägre kostnad. Dessa modeller är ofta skräddarsydda för specifika uppgifter som att hantera juridiska dokument eller intern kommunikation. Yoav Shoham från AI21 Labs hävdar att små modeller är mer ekonomiskt genomförbara för utbredd användning och kostar bara en bråkdel av vad stora modeller skulle innebära samtidigt som de ger svar på frågor.

Företag använder lätt dessa mindre modeller för att öka effektiviteten och minska kostnaderna. Till exempel gick Experian över till mindre modeller för sina AI-chatbotar och uppnådde liknande prestanda som större modeller men till en minskad kostnad. Salesforces Clara Shih lyfter fram det praktiska med mindre modeller, eftersom modeller ofta leder till överdrivna utgifter och latensproblem.

Sedan lanseringen av GPT-4 av OpenAI har det inte skett några betydande framsteg i utvecklingen av stora modeller, vilket resulterat i en stagnation av framstegen. Följaktligen har ansträngningarna riktats om mot att förbättra effektiviteten hos mindre modeller. Sébastien Bubeck från Microsoft observerar en aktuell paus i stor utveckling och uppmuntrar ansträngningar för att förbättra effektiviteten.

Trots detta skifte har stora modeller fortfarande värde för avancerade uppgifter. Företag som Apple och Microsoft fortsätter att införliva stora modeller som t.ex. som ChatGPT i sina produkter, även om dessa integrationer vanligtvis bara representerar en bråkdel av deras övergripande AI-initiativ. Denna utveckling innebär förvandlingen av AI från futuristiska demonstrationer till praktiska reklamfilmer.

Code Labs Academy © 2025 Alla rättigheter förbehållna.