Laut einer aktuellen Studie erleben selbst die besten KI-Modelle regelmäßig Halluzinationen – Fehler, bei denen die Modelle falsche oder irreführende Informationen generieren. Alle generativen KI-Modelle – von Googles Gemini über Anthropics Claude bis hin zu OpenAIs neuestem GPT-4o – haben dieses Problem, allerdings unterscheiden sich Art und Häufigkeit der Fehler je nach Trainingsdaten.
Um diese Halluzinationen zu bewerten, verglichen Forscher von Cornell, den Universitäten Washington und Waterloo und der Organisation AI2 die Ergebnisse von Modellen mit zuverlässigen Quellen zu verschiedenen Themen, darunter Geographie, Geschichte, Gesundheit und Recht. Den Daten zufolge schnitt kein Modell bei allen Personen konstant gut ab, und diejenigen, die weniger Halluzinationen erlebten, taten dies teilweise, weil sie sich weigerten, auf Fragen zu antworten, die sie möglicherweise falsch beantwortet hatten.
Die Forschung unterstreicht die anhaltende Schwierigkeit, sich auf KI-generiertes Material zu verlassen, da selbst die fortschrittlichsten Modelle nur in etwa 35 % der Fälle in der Lage sind, präzise, halluzinationsfreie Texte zu generieren. Diese Untersuchung umfasst schwierigere Themen, die nicht von Wikipedia abgedeckt werden, wie Kultur, Finanzen und Medizin, wohingegen sich frühere Studien häufig auf Fragen mit leicht zugänglichen Antworten auf Wikipedia konzentrierten. Wir haben mehr als ein Dutzend bekannte Modelle getestet, darunter Googles Gemini 1.5 Pro, Metas Llama 3 und GPT-4o.
Die Studie ergab, dass KI-Modelle zwar Fortschritte gemacht haben, ihre Halluzinationsraten jedoch nicht merklich zurückgegangen sind. Die Modelle von OpenAI gehörten zu den Modellen mit der geringsten Wahrscheinlichkeit, ungenaue Ergebnisse zu liefern; Dennoch hatten die Models mehr Schwierigkeiten, Fragen zu Finanzen und Prominenten zu beantworten als zu Geographie und Informatik.
Modelle ohne Websuchfunktionen hatten nicht nur Schwierigkeiten, Probleme zu lösen, die nicht in Wikipedia behandelt werden, sondern kleinere Modelle übertrafen auch größere in Bezug auf die Halluzinationsrate. Diese Ergebnisse lassen Zweifel an den Fortschritten aufkommen, die KI-Anbieter angeblich gemacht haben.
Die Untersuchungen deuten darauf hin, dass Halluzinationen noch einige Zeit lang ein Problem darstellen werden und dass die zur Bewertung dieser Modelle verwendeten Kriterien möglicherweise nicht ausreichen. Ein Beispiel für ein Modell, das die Forscher als Zwischenlösung vorschlagen, ist das Claude-3-Haiku-Modell, das eine höhere Genauigkeit erreichte, indem es etwa 28 % der Fragen nicht beantwortete. Programmiermodelle, die dasselbe tun. Andererseits ist unklar, ob die Menschen ein Modell tolerieren, das sich konsequent einer Antwort verweigert.
Die Forscher unterstützen Gesetze, die garantieren, dass menschliche Experten an der Überprüfung von KI-generierten Inhalten beteiligt sind, sowie konzentriertere Bemühungen zur Reduzierung von Halluzinationen, möglicherweise durch Human-in-the-Loop-Faktenprüfung und verbesserte Zitierverfahren. Sie glauben, dass es großes Potenzial gibt, Tools zur Faktenprüfung zu verbessern und Inhaltskorrekturen für Inhalte anzubieten, die durch Halluzinationen verändert wurden.