Naujas tyrimas atskleidžia nuolatines haliucinacijas populiariausiuose AI modeliuose

Naujas tyrimas atskleidžia nuolatines haliucinacijas populiariausiuose AI modeliuose

Remiantis neseniai atliktu tyrimu, net geriausi dirbtinio intelekto modeliai reguliariai patiria haliucinacijas )) – klaidos, kai modeliai generuoja klaidingą ar klaidinančią informaciją. Visi generatyvieji AI modeliai – nuo ​​Google Gemini iki Anthropic's Claude ir OpenAI naujausio GPT-4o – turi šią problemą, tačiau klaidų pobūdis ir dažnis skiriasi priklausomai nuo mokymo duomenų.

Siekdami įvertinti šias haliucinacijas, mokslininkai iš Kornelio, Vašingtono ir Vaterlo universitetų ir organizacijos AI2 palygino modelių rezultatus su patikimais šaltiniais įvairiomis temomis, įskaitant geografiją, istoriją, sveikatą ir teisę. Remiantis duomenimis, nė vienas modelis neveikė vienodai gerai visiems asmenims, o tie, kurie patyrė mažiau haliucinacijų, tai iš dalies padarė todėl, kad jie atsisakė atsakyti į klausimus, į kuriuos galėjo atsakyti klaidingai.

Tyrimas pabrėžia nuolatinius sunkumus pasikliauti AI sukurta medžiaga, nes net ir patys pažangiausi modeliai gali sukurti tikslų tekstą be haliucinacijų tik maždaug 35 % atvejų. Šis tyrimas apima sudėtingesnes temas, kurios neapžvelgiamos Vikipedijoje, pvz., kultūra, finansai ir medicina, tuo tarpu ankstesniuose tyrimuose daugiausia dėmesio buvo skiriama klausimams su lengvai prieinamais atsakymais Vikipedijoje. Įvertinome daugiau nei tuziną gerai žinomų modelių, tokių kaip Google Gemini 1.5 Pro, Meta's Llama 3 ir GPT-4o.

Tyrimas atskleidė, kad nors dirbtinio intelekto modeliai pažengė į priekį, jų haliucinacijų dažnis pastebimai nesumažėjo. OpenAI modeliai buvo vieni iš mažiausiai tikėtinų netikslių rezultatų; Vis dėlto modeliai turėjo daugiau problemų atsakydami į klausimus apie finansus ir įžymybes nei apie geografiją ir informatiką.

Modeliai, neturintys žiniatinklio paieškos galimybių, ne tik stengėsi atsakyti į problemas, kurių neapima Vikipedija, bet ir mažesni modeliai pralenkė didesnius pagal haliucinacijų dažnį. Šie rezultatai verčia abejoti DI tiekėjų teigimu, pažanga.

Tyrimas rodo, kad haliucinacijos dar kurį laiką bus problema ir kad šiems modeliams įvertinti taikomų kriterijų gali nepakakti. Claude 3 Haiku modelis, kuris pasiekė didesnį tikslumą neatsakęs į maždaug 28% klausimų, yra vienas iš modelio, kurį mokslininkai siūlo kaip tarpinį sprendimą, pavyzdys. Programuoti modelius taip daryti. Kita vertus, neaišku, ar žmonės toleruos modelį, kuris nuolat atsisako atsakyti.

Tyrėjai remia teisės aktus, garantuojančius, kad žmonių ekspertai dalyvauja tikrinant dirbtinio intelekto sukurtą turinį, taip pat labiau sutelktas pastangas sumažinti haliucinacijas, galbūt taikant faktų tikrinimą ir patobulintas citavimo procedūras. Jie mano, kad yra daug galimybių tobulinti faktų tikrinimo įrankius ir pasiūlyti turinio pataisymus turiniui, kurį pakeitė haliucinacijos.

Code Labs Academy © 2025 Visos teisės saugomos.