Według niedawnego badania nawet najlepsze modele sztucznej inteligencji regularnie doświadczają halucynacji – błędy polegające na tym, że modele generują fałszywe lub wprowadzające w błąd informacje. Wszystkie modele generatywnej sztucznej inteligencji — od Gemini firmy Google po Claude firmy Anthropic i najnowszy GPT-4o OpenAI — mają ten problem, jednak rodzaj i częstotliwość błędów różnią się w zależności od danych szkoleniowych.
Próbując ocenić te halucynacje, naukowcy z Cornell, uniwersytetów w Waszyngtonie i Waterloo oraz organizacji AI2 porównali wyniki modeli z wiarygodnymi źródłami na różne tematy, w tym geografię, historię, zdrowie i prawo. Z danych wynika, że żaden model nie działał równomiernie u wszystkich osób, a ci, którzy doświadczyli mniej halucynacji, osiągnęli taki wynik po części dlatego, że odmawiali odpowiedzi na pytania, na które mogli odpowiedzieć błędnie.
Badanie podkreśla utrzymującą się trudność polegania na materiałach generowanych przez sztuczną inteligencję, ponieważ nawet najbardziej zaawansowane modele są w stanie wygenerować precyzyjny, pozbawiony halucynacji tekst jedynie w około 35% przypadków. To dochodzenie obejmuje trudniejsze tematy, które nie są objęte Wikipedią, takie jak kultura, finanse i medycyna, podczas gdy poprzednie badania często skupiały się na pytaniach, na które odpowiedzi były łatwo dostępne w Wikipedii. Oceniliśmy kilkanaście znanych modeli, takich jak Google Gemini 1.5 Pro, Meta Llama 3 i GPT-4o.
Badanie wykazało, że chociaż modele sztucznej inteligencji uległy postępowi, częstość występowania halucynacji nie spadła zauważalnie. Modele OpenAI należały do tych, które najmniej dawały niedokładne wyniki; jednak modelki miały więcej problemów z odpowiedziami na pytania dotyczące finansów i celebrytów niż dotyczące geografii i informatyki.
Modele pozbawione możliwości wyszukiwania w Internecie nie tylko miały trudności z odpowiedzią na problemy nieujęte w Wikipedii, ale mniejsze modele radziły sobie lepiej od większych pod względem współczynnika halucynacji. Wyniki te podają w wątpliwość postęp, o którym twierdzą dostawcy sztucznej inteligencji.
Badania wskazują, że halucynacje będą problemem jeszcze przez jakiś czas i że kryteria stosowane do oceny tych modeli mogą być niewystarczające. Model Claude 3 Haiku, który osiągnął większą dokładność, nie odpowiadając na około 28% pytań, jest jednym z przykładów modelu zaproponowanego przez badaczy jako rozwiązanie pośrednie. Programowanie modeli, aby robiły to samo. Z drugiej strony nie jest jasne, czy ludzie będą tolerować model, który konsekwentnie odmawia odpowiedzi.
Naukowcy popierają ustawodawstwo gwarantujące, że eksperci-ludzi będą zaangażowani w weryfikację treści generowanych przez sztuczną inteligencję, a także bardziej skoncentrowane wysiłki na rzecz ograniczenia halucynacji, być może poprzez sprawdzanie faktów na bieżąco i ulepszone procedury cytowania. Uważają, że istnieje duży potencjał ulepszenia narzędzi do sprawdzania faktów i oferowania poprawek treści zmienionych przez halucynacje.