Ny undersøgelse afslører vedvarende hallucinationer i top AI-modeller

Ny undersøgelse afslører vedvarende hallucinationer i top AI-modeller

Ifølge en nylig undersøgelse oplever selv de bedste AI-modeller regelmæssigt hallucinationer ))—fejl, hvor modellerne genererer falsk eller vildledende information. Alle generative AI-modeller – fra Googles Gemini til Anthropics Claude og OpenAIs seneste GPT-4o – har dette problem, men arten og hyppigheden af ​​fejl varierer alt efter træningsdata.

I et forsøg på at vurdere disse hallucinationer sammenlignede forskere fra Cornell, universiteterne i Washington og Waterloo og organisationen AI2 modeloutput med pålidelige kilder om en række emner, herunder geografi, historie, sundhed og jura. Ingen model klarede sig konsekvent godt på tværs af alle individer ifølge dataene, og dem, der oplevede færre hallucinationer, gjorde det til dels, fordi de afviste at svare på spørgsmål, som de måske har besvaret forkert.

Forskningen understreger den vedvarende vanskelighed ved at stole på AI-genereret materiale, da selv de mest avancerede modeller kun er i stand til at generere præcise tekster uden hallucinationer i cirka 35 % af tilfældene. Denne undersøgelse omfatter mere vanskelige emner, som ikke er dækket af Wikipedia, såsom kultur, økonomi og medicin, hvorimod tidligere undersøgelser ofte fokuserede på spørgsmål med let tilgængelige svar på Wikipedia. Vi vurderede mere end et dusin velkendte modeller, såsom Googles Gemini 1.5 Pro, Metas Llama 3 og GPT-4o.

Undersøgelsen opdagede, at selvom AI-modeller er avanceret, er deres rater af hallucinationer ikke faldet mærkbart. OpenAI's modeller var blandt de mindst tilbøjelige til at producere unøjagtige resultater; alligevel havde modellerne mere problemer med at besvare spørgsmål om økonomi og berømtheder, end de havde om geografi og datalogi.

Ikke alene kæmpede modeller, der manglede websøgningsfunktioner, med at besvare problemer, der ikke var dækket af Wikipedia, men mindre modeller klarede sig bedre end større med hensyn til hallucinationsfrekvens. Disse resultater sår tvivl om de fremskridt, som AI-leverandører har hævdet at have gjort.

Forskningen indikerer, at hallucinationer vil være et problem i nogen tid fremover, og at de kriterier, der bruges til at vurdere disse modeller, måske ikke er tilstrækkelige. Claude 3 Haiku-modellen, som opnåede mere nøjagtighed ved ikke at svare på omkring 28 % af spørgsmålene, er et eksempel på en model, som forskerne foreslår som en mellemløsning. Programmering af modeller til at gøre det samme. På den anden side er det uklart, om folk vil tolerere en model, der konsekvent nægter at svare.

Forskerne støtter lovgivning, der garanterer, at menneskelige eksperter er involveret i at verificere AI-genereret indhold, samt en mere koncentreret indsats for at reducere hallucinationer, måske gennem menneske-i-løkken faktatjek og forbedrede citationsprocedurer. De mener, at der er et stort potentiale for at forbedre faktatjekværktøjer og tilbyde indholdsrettelser til indhold, der er blevet ændret af hallucinationer.

Code Labs Academy © 2025 Alle rettigheder forbeholdes.