Ny studie avslører vedvarende hallusinasjoner i topp AI-modeller

Ny studie avslører vedvarende hallusinasjoner i topp AI-modeller

Ifølge en fersk studie, opplever selv de beste AI-modellene regelmessig hallusinasjoner ))—feil der modellene genererer falsk eller villedende informasjon. Alle generative AI-modeller – fra Googles Gemini til Anthropics Claude og OpenAIs nyeste GPT-4o – har dette problemet, men typen og hyppigheten av feil varierer i henhold til treningsdata.

I et forsøk på å vurdere disse hallusinasjonene, sammenlignet forskere fra Cornell, universitetene i Washington og Waterloo og organisasjonen AI2 modellutdata mot pålitelige kilder om en rekke emner, inkludert geografi, historie, helse og juss. Ingen modell presterte konsekvent bra på tvers av alle individer, ifølge dataene, og de som opplevde mindre hallusinasjoner gjorde det delvis fordi de nektet å svare på spørsmål som de kanskje har svart feil.

Forskningen understreker de vedvarende vanskelighetene med å stole på AI-generert materiale, siden selv de mest avanserte modellene bare er i stand til å generere presis tekst uten hallusinasjoner i omtrent 35 % av tilfellene. Denne undersøkelsen inkluderer vanskeligere emner som ikke er dekket av Wikipedia, slik som kultur, finans og medisin, mens tidligere studier ofte fokuserte på spørsmål med lett tilgjengelige svar på Wikipedia. Vi evaluerte mer enn et dusin kjente modeller, som Googles Gemini 1.5 Pro, Metas Llama 3 og GPT-4o.

Studien oppdaget at selv om AI-modeller har avansert, har ikke frekvensen av hallusinasjoner redusert merkbart. OpenAIs modeller var blant de minst sannsynlige til å gi unøyaktige resultater; Likevel hadde modellene mer problemer med å svare på spørsmål om finans og kjendiser enn de gjorde om geografi og informatikk.

Ikke bare slet modeller som mangler nettsøkefunksjoner med å svare på problemer som ikke dekkes av Wikipedia, men mindre modeller klarte seg bedre enn de større når det gjelder hallusinasjonsfrekvens. Disse resultatene sår tvil om fremskritt som AI-leverandører har hevdet å ha gjort.

Forskningen indikerer at hallusinasjoner kommer til å være et problem i en stund fremover, og at kriteriene som brukes for å vurdere disse modellene kanskje ikke er tilstrekkelige. Claude 3 Haiku-modellen, som oppnådde mer nøyaktighet ved ikke å svare på omtrent 28 % av spørsmålene, er ett eksempel på en modell som forskerne foreslår som en mellomløsning. Programmere modeller for å gjøre det samme. På den annen side er det uklart om folk vil tolerere en modell som konsekvent nekter å svare.

Forskerne støtter lovgivning som garanterer at menneskelige eksperter er involvert i å verifisere AI-generert innhold, samt mer konsentrert innsats for å redusere hallusinasjoner, kanskje gjennom faktasjekking av mennesker og forbedrede siteringsprosedyrer. De mener det er et stort potensial for å forbedre faktasjekkingsverktøy og tilby innholdsrettinger for innhold som har blitt endret av hallusinasjoner.

Code Labs Academy © 2025 Alle rettigheter forbeholdes.