Nova študija razkriva vztrajne halucinacije pri najboljših modelih AI

Nova študija razkriva vztrajne halucinacije pri najboljših modelih AI

Glede na nedavno študijo celo najboljši modeli umetne inteligence redno doživljajo halucinacije ))—napake, pri katerih modeli ustvarjajo napačne ali zavajajoče informacije. Vsi generativni modeli umetne inteligence – od Googlovega Geminija do Anthropicovega Clauda in najnovejšega OpenAI GPT-4o – imajo to težavo, vendar se vrsta in pogostost napak razlikujeta glede na podatke o usposabljanju.

Da bi ocenili te halucinacije, so raziskovalci iz Cornella, univerz v Washingtonu in Waterlooju ter organizacije AI2 primerjali rezultate modela z zanesljivimi viri o različnih temah, vključno z geografijo, zgodovino, zdravjem in pravom. Glede na podatke noben model ni deloval dosledno dobro pri vseh posameznikih, tisti, ki so imeli manj halucinacij, pa so to deloma storili zato, ker niso želeli odgovoriti na vprašanja, na katera so morda odgovorili napačno.

Raziskava poudarja vztrajne težave pri zanašanju na gradivo, ustvarjeno z umetno inteligenco, saj lahko celo najnaprednejši modeli ustvarijo natančno besedilo brez halucinacij le v približno 35 % primerov. Ta preiskava vključuje težje teme, ki niso pokrite v Wikipediji, kot so kultura, finance in medicina, medtem ko so se prejšnje študije pogosto osredotočale na vprašanja z lahko dostopnimi odgovori na Wikipediji. Ocenili smo več kot ducat znanih modelov, kot so Googlov Gemini 1.5 Pro, Metin Llama 3 in GPT-4o.

Študija je odkrila, da čeprav so modeli AI napredovali, se njihove stopnje halucinacij niso opazno zmanjšale. Modeli OpenAI so bili med najmanj verjetnostjo, da bodo dali netočne rezultate; vendar pa so imeli modeli več težav pri odgovarjanju na vprašanja o financah in slavnih kot o geografiji in računalništvu.

Ne samo, da modeli brez zmožnosti spletnega iskanja težko odgovorijo na težave, ki jih Wikipedia ne pokriva, ampak so manjši modeli prekašali večje v smislu stopnje halucinacij. Ti rezultati dvomijo o napredku, za katerega trdijo, da so ga dosegli dobavitelji AI.

Raziskava kaže, da bodo halucinacije še nekaj časa problem in da merila, ki se uporabljajo za ocenjevanje teh modelov, morda ne bodo zadostovala. Model Claude 3 Haiku, ki je dosegel večjo natančnost, ker ni odgovoril na približno 28 % vprašanj, je en primer modela, ki ga raziskovalci predlagajo kot vmesno rešitev. Programiranje modelov za enako. Po drugi strani pa ni jasno, ali bodo ljudje tolerirali modela, ki dosledno noče odgovoriti.

Raziskovalci podpirajo zakonodajo, ki zagotavlja, da so človeški strokovnjaki vključeni v preverjanje vsebine, ustvarjene z umetno inteligenco, kot tudi bolj osredotočena prizadevanja za zmanjšanje halucinacij, morda s preverjanjem dejstev s človekom v zanki in izboljšanimi postopki citiranja. Verjamejo, da obstaja veliko možnosti za izboljšanje orodij za preverjanje dejstev in ponujanje popravkov vsebine za vsebino, ki je bila spremenjena s halucinacijami.

Code Labs Academy © 2025 Vse pravice pridržane.