Podle nedávné studie i ty nejlepší modely umělé inteligence pravidelně zažívají halucinace )) – chyby, kdy modely generují nepravdivé nebo zavádějící informace. Všechny generativní modely umělé inteligence – od Gemini od Googlu po Claude od Anthropic a nejnovější GPT-4o od OpenAI – mají tento problém, avšak druh a četnost chyb se liší podle tréninkových dat.
Ve snaze posoudit tyto halucinace porovnali výzkumníci z Cornellu, univerzit ve Washingtonu a Waterloo a organizace AI2 modelové výstupy se spolehlivými zdroji na různá témata, včetně geografie, historie, zdraví a práva. Žádný model si podle údajů nevedl konzistentně dobře u všech jedinců a ti, kteří zažili méně halucinací, tak činili částečně proto, že odmítli reagovat na otázky, na které mohli odpovědět chybně.
Výzkum podtrhuje přetrvávající potíže spoléhat se na materiál generovaný AI, protože i ty nejpokročilejší modely jsou schopny generovat přesný text bez halucinací pouze v přibližně 35 % případů. Toto vyšetřování zahrnuje složitější témata, která nejsou pokrytá Wikipedií, jako je kultura, finance a medicína, zatímco předchozí studie se často zaměřovaly na otázky se snadno dostupnými odpověďmi na Wikipedii. Vyhodnotili jsme více než tucet známých modelů, jako jsou Gemini 1.5 Pro od Googlu, Llama 3 od Meta a GPT-4o.
Studie zjistila, že ačkoli modely umělé inteligence pokročily, míra jejich halucinací se výrazně nesnížila. Modely OpenAI patřily k těm s nejmenší pravděpodobností, že přinesou nepřesné výsledky; přesto měly modelky větší problém odpovídat na otázky o financích a celebritách než o zeměpisu a informatice.
Nejen, že modely postrádající možnosti vyhledávání na webu se potýkaly s problémy, které Wikipedie nepokrývá, ale menší modely předčily ty větší, pokud jde o míru halucinací. Tyto výsledky vrhají pochybnosti na pokrok, o kterém dodavatelé umělé inteligence tvrdí, že dosáhli.
Výzkum ukazuje, že halucinace budou ještě nějakou dobu problémem a že kritéria používaná pro hodnocení těchto modelů nemusí být dostatečná. Model Claude 3 Haiku, který dosáhl větší přesnosti tím, že neodpověděl na zhruba 28 % otázek, je jedním z příkladů modelu, který výzkumníci navrhují jako přechodné řešení. Programování modelů, aby udělaly totéž. Na druhou stranu není jasné, zda lidé budou tolerovat model, který soustavně odmítá odpovídat.
Výzkumníci podporují legislativu, která zaručuje, že se do ověřování obsahu generovaného umělou inteligencí zapojují lidské experty, stejně jako koncentrovanější úsilí o snížení halucinací, možná prostřednictvím ověřování faktů člověkem ve smyčce a vylepšených citačních postupů. Věří, že existuje velký potenciál ke zlepšení nástrojů pro kontrolu faktů a nabízí opravy obsahu pro obsah, který byl pozměněn halucinacemi.