Velké výhody malých modelů umělé inteligence pro technické giganty

Velké výhody malých modelů umělé inteligence pro technické giganty

Ve snaze o replikaci lidské inteligence se závody ve zbrojení umělé inteligence zpočátku soustředily na vytváření masivních modelů trénovaných na rozsáhlých souborech dat. V poslední době však došlo k výraznému posunu, kdy techničtí giganti a startupy stále více směřují svou pozornost k efektivnějšímu a specializovanějšímu softwaru AI, který je levnější a rychlejší.

Tyto menší a středně velké jazykové modely, speciálně navržené pro specifické úkoly a trénované s menším množstvím dat, si získaly značnou oblibu. Na rozdíl od svých větších protějšků je lze vyvinout za cenu nižší než 10 milionů USD a využívat méně než 10 miliard parametrů. Pro srovnání, OpenAI's GPT-4o, jeden z největších modelů, si vyžádal více než 100 milionů dolarů na konstrukci a používal více než jeden bilion parametrů. Menší velikost těchto modelů znamená nižší nároky na výpočetní výkon a nižší ceny za dotaz.

Microsoft například kladl důraz na svou rodinu malých modelů Phi. Satya Nadella, generální ředitel společnosti Microsoft, tvrdí, že tyto modely jsou o 1/100 větší než model za ChatGPT od OpenAI, přesto zvládnou mnoho úkolů se srovnatelnou účinností. Yusuf Mehdi, obchodní ředitel společnosti Microsoft, zdůrazňuje potřebu odlišných modelů pro různé úkoly, přičemž uvádí vyšší než očekávané náklady spojené s provozováním velkých modelů. Kromě toho Microsoft nedávno představil notebooky s umělou inteligencí, které využívají četné modely umělé inteligence pro vyhledávání a generování obrázků. Tyto modely fungují na samotném zařízení, aniž by se spoléhaly na rozsáhlé cloudové superpočítače, jako je tomu u ChatGPT.

Další korporace, jako je Google a AI startupy jako Mistral, Anthropic a Cohere, také vydaly menší modely. Apple navíc odhalil plány na integraci malých modelů, aby se zvýšila rychlost a bezpečnost operací AI na telefonech.

OpenAI, proslulá propagací velkých modelů, uvedla na trh dostupnější verzi svého vlajkového modelu a v budoucnu se hodlá zaměřit na vývoj menších modelů. Velké modely se ukázaly jako nadbytečné pro úkoly, jako je sumarizace dokumentů nebo generování obrázků, podobně jako použití tanku pro jednoduchý výlet za nákupem potravin. Menší modely naopak mohou nabídnout srovnatelný výkon za výrazně nižší cenu. Tyto modely jsou často přizpůsobeny pro konkrétní úkoly, jako je správa právních dokumentů nebo interní komunikace. Yoav Shoham z AI21 Labs tvrdí, že malé modely jsou ekonomicky schůdnější pro široké použití, protože stojí jen zlomek toho, co by obnášely velké modely, přičemž poskytují odpovědi na otázky.

Podniky tyto menší modely ochotně přebírají, aby zvýšily efektivitu a snížily náklady. Například společnost Experian přešla na menší modely pro své chatboty s umělou inteligencí a dosáhla podobného výkonu jako větší modely, ale se sníženými náklady. Clara Shih ze Salesforce zdůrazňuje praktičnost menších modelů, protože modely často vedou k nadměrným výdajům a problémům s latencí.

Od vydání GPT-4 OpenAI nedošlo k žádnému významnému pokroku ve vývoji velkých modelů, což vedlo ke stagnaci pokroku. V důsledku toho bylo úsilí přesměrováno na zlepšení účinnosti menších modelů. Sébastien Bubeck ze společnosti Microsoft pozoruje současnou pauzu ve velkém vývoji a podporuje snahy o zvýšení efektivity.

Navzdory tomuto posunu mají velké modely stále hodnotu pro pokročilé úkoly. Společnosti jako Apple a Microsoft nadále začleňují velké modely, jako je jako ChatGPT do svých produktů, ačkoli tyto integrace obvykle představují pouze zlomek jejich celkových iniciativ AI. Tento vývoj znamená transformaci umělé inteligence od futuristických ukázek k praktickým reklamám.

Code Labs Academy © 2025 Všechna práva vyhrazena.