Nieuw onderzoek onthult aanhoudende hallucinaties in top-AI-modellen

Nieuw onderzoek onthult aanhoudende hallucinaties in top-AI-modellen

Volgens een recent onderzoek ervaren zelfs de beste AI-modellen regelmatig hallucinaties – fouten waarbij de modellen valse of misleidende informatie genereren. Alle generatieve AI-modellen (van Google's Gemini tot Claude van Anthropic en OpenAI's meest recente GPT-4o) hebben dit probleem, maar het soort en de frequentie van fouten verschilt afhankelijk van de trainingsgegevens.

In een poging deze hallucinaties te beoordelen, vergeleken onderzoekers van Cornell, de universiteiten van Washington en Waterloo en de organisatie AI2 de uitkomsten van modellen met betrouwbare bronnen over een verscheidenheid aan onderwerpen, waaronder aardrijkskunde, geschiedenis, gezondheid en recht. Volgens de gegevens presteerde geen enkel model consistent goed bij alle individuen, en degenen die minder hallucinaties ervaarden deden dit gedeeltelijk omdat ze weigerden te reageren op vragen die ze mogelijk ten onrechte hadden beantwoord.

Het onderzoek onderstreept de aanhoudende moeilijkheid om te vertrouwen op door AI gegenereerd materiaal, aangezien zelfs de meest geavanceerde modellen slechts in ongeveer 35% van de gevallen nauwkeurige tekst kunnen genereren, zonder hallucinaties. Dit onderzoek omvat moeilijkere onderwerpen die niet behandeld worden door Wikipedia, zoals cultuur, financiën en geneeskunde, terwijl eerdere onderzoeken zich vaak richtten op vragen met gemakkelijk toegankelijke antwoorden op Wikipedia. We hebben meer dan een dozijn bekende modellen geëvalueerd, zoals Google's Gemini 1.5 Pro, Meta's Llama 3 en GPT-4o.

De studie ontdekte dat hoewel AI-modellen vooruit zijn gegaan, het aantal hallucinaties niet merkbaar is afgenomen. De modellen van OpenAI behoorden tot de minst waarschijnlijke die onnauwkeurige resultaten zouden opleveren; Toch hadden de modellen meer moeite met het beantwoorden van vragen over financiën en beroemdheden dan over aardrijkskunde en informatica.

Niet alleen hadden modellen die geen webzoekmogelijkheden hadden moeite om problemen te beantwoorden die niet door Wikipedia werden behandeld, maar kleinere modellen presteerden ook beter dan grotere in termen van hallucinatiepercentage. Deze resultaten werpen twijfel op over de vooruitgang die AI-leveranciers beweren te hebben geboekt.

Uit het onderzoek blijkt dat hallucinaties de komende tijd een probleem zullen blijven en dat de criteria die worden gebruikt om deze modellen te beoordelen mogelijk niet voldoende zijn. Het Claude 3 Haiku-model, dat nauwkeuriger werd doordat het op ongeveer 28% van de vragen niet reageerde, is een voorbeeld van een model dat de onderzoekers als tussenoplossing voorstellen. Programmeermodellen om hetzelfde te doen. Aan de andere kant is het onduidelijk of mensen een model zullen tolereren dat consequent weigert te antwoorden.

De onderzoekers steunen wetgeving die garandeert dat menselijke experts betrokken zijn bij het verifiëren van door AI gegenereerde inhoud, evenals meer geconcentreerde inspanningen om hallucinaties te verminderen, misschien door menselijke factchecking en verbeterde citatieprocedures. Ze geloven dat er veel potentieel is om de tools voor het controleren van feiten te verbeteren en inhoudsoplossingen aan te bieden voor inhoud die is veranderd door hallucinaties.

Code Labs Academy © 2025 Alle rechten voorbehouden.