Son araşdırmaya görə, hətta ən yaxşı süni intellekt modelləri də müntəzəm olaraq [halüsinasiyalar] yaşayır (https://en.wikipedia.org/wiki/Hallucination_(süni_intelligence) ))—modellərin yanlış və ya yanıltıcı məlumat yaratdığı xətalar. Google-un Gemini-dən Anthropic's Claude və OpenAI-nin ən son GPT-4o-ya qədər bütün generativ AI modellərində bu problem var, lakin səhvlərin növü və tezliyi təlim məlumatlarına görə fərqlənir.
Kornel, Vaşinqton və Vaterloo universitetlərindən və AI2 təşkilatından olan tədqiqatçılar bu hallüsinasiyaları qiymətləndirmək üçün coğrafiya, tarix, sağlamlıq və hüquq daxil olmaqla müxtəlif mövzularda etibarlı mənbələrlə model nəticələrini müqayisə etdilər. Məlumatlara görə, heç bir model bütün fərdlər arasında ardıcıl olaraq yaxşı performans göstərmədi və daha az halüsinasiyalar yaşayanlar bunu qismən etdilər, çünki səhv cavab verə biləcək suallara cavab verməkdən imtina etdilər.
Tədqiqat süni intellekt tərəfindən yaradılan materiala etibar etməyin davamlı çətinliyini vurğulayır, belə ki, hətta ən qabaqcıl modellər belə halların təxminən 35%-də yalnız dəqiq, halüsinasiyalar olmayan mətn yarada bilir. Bu araşdırma Vikipediya tərəfindən əhatə olunmayan, mədəniyyət, maliyyə və tibb kimi daha çətin mövzuları əhatə edir., halbuki əvvəlki tədqiqatlar tez-tez Wikipedia-da asanlıqla əldə edilə bilən cavabları olan suallara diqqət yetirirdi. Google-un Gemini 1.5 Pro, Meta-nın Llama 3 və GPT-4o kimi ondan çox tanınmış modeli qiymətləndirdik.
Tədqiqat, süni intellekt modellərinin inkişaf etməsinə baxmayaraq, onların hallüsinasiya nisbətlərinin nəzərəçarpacaq dərəcədə azalmadığını aşkar etdi. OpenAI modelləri qeyri-dəqiq nəticələr çıxarmaq ehtimalı ən az olan modellər arasında idi; buna baxmayaraq, modellər maliyyə və məşhurlar haqqında suallara cavab verməkdə coğrafiya və kompüter elmləri ilə müqayisədə daha çox çətinlik çəkirdilər.
Veb axtarış imkanlarından məhrum olan modellər nəinki Vikipediyada əhatə olunmayan problemləri həll etməkdə çətinlik çəkdi, həm də kiçik modellər halüsinasiya dərəcəsi baxımından daha böyük modelləri üstələyib.
Tədqiqat göstərir ki, halüsinasiyalar hələ bir müddət problem olacaq və bu modelləri qiymətləndirmək üçün istifadə olunan meyarlar kifayət olmaya bilər. Sualların təxminən 28%-nə cavab verməməklə daha çox dəqiqliyə nail olan Claude 3 Haiku modeli tədqiqatçıların ara həll kimi təklif etdiyi modelin bir nümunəsidir. Eyni şeyi etmək üçün proqramlaşdırma modelləri. Digər tərəfdən, insanların ardıcıl olaraq cavab verməkdən boyun qaçıran bir modelə dözüb-gözəlməyəcəyi bəlli deyil.
Tədqiqatçılar, insan ekspertlərinin süni intellekt tərəfindən yaradılan məzmunun yoxlanılmasında iştirakına zəmanət verən qanunvericiliyi dəstəkləyirlər, həmçinin halüsinasiyaları azaltmaq üçün daha çox cəmlənmiş səyləri, ola bilsin ki, insan-in-the-loop fakt yoxlanışı və təkmilləşdirilmiş sitat prosedurları vasitəsilə. Onlar inanırlar ki, fakt yoxlama vasitələrini təkmilləşdirmək və halüsinasiyalar tərəfindən dəyişdirilmiş məzmun üçün məzmun düzəlişləri təklif etmək üçün çoxlu potensial var.