Saskaņā ar nesenu pētījumu, pat labākie AI modeļi regulāri piedzīvo halucinācijas )) — kļūdas, kurās modeļi ģenerē nepatiesu vai maldinošu informāciju. Visiem ģeneratīvajiem AI modeļiem — no Google Gemini līdz Anthropic Claude un OpenAI jaunākajam GPT-4o — ir šī problēma, tomēr kļūdu veids un biežums atšķiras atkarībā no apmācības datiem.
Cenšoties novērtēt šīs halucinācijas, Kornela, Vašingtonas un Vaterlo universitāšu un organizācijas AI2 pētnieki salīdzināja modeļu rezultātus ar uzticamiem avotiem par dažādām tēmām, tostarp ģeogrāfiju, vēsturi, veselību un tiesībām. Saskaņā ar datiem neviens modelis nedarbojās vienmērīgi visiem indivīdiem, un tie, kuriem bija mazāk halucināciju, to izdarīja daļēji tāpēc, ka viņi atteicās atbildēt uz jautājumiem, uz kuriem viņi, iespējams, būtu atbildējuši kļūdaini.
Pētījums uzsver pastāvīgās grūtības paļauties uz mākslīgā intelekta radīto materiālu, jo pat vismodernākie modeļi spēj ģenerēt precīzu, bez halucināciju tekstu tikai aptuveni 35% gadījumu. Šajā izmeklēšanā ir iekļautas sarežģītākas tēmas, kuras netiek aplūkotas Vikipēdijā, piemēram, kultūra, finanses un medicīna., savukārt iepriekšējos pētījumos bieži vien uzmanība tika pievērsta jautājumiem ar viegli pieejamām atbildēm Vikipēdijā. Mēs novērtējām vairāk nekā duci labi zināmu modeļu, piemēram, Google Gemini 1.5 Pro, Meta's Llama 3 un GPT-4o.
Pētījumā atklājās, ka, lai gan AI modeļi ir attīstījušies, to halucināciju biežums nav ievērojami samazinājies. OpenAI modeļi bija vieni no retākajiem, kas sniedza neprecīzus rezultātus; tomēr modelēm bija lielākas grūtības atbildēt uz jautājumiem par finansēm un slavenībām nekā par ģeogrāfiju un datorzinātnēm.
Modeļiem, kuriem trūka meklēšanas tīmeklī, ne tikai bija grūti atbildēt uz problēmām, kuras nebija aplūkotas Vikipēdijā, bet arī mazāki modeļi halucināciju biežuma ziņā pārspēja lielākus modeļus. Šie rezultāti liek apšaubīt AI piegādātāju apgalvojumus par progresu.
Pētījums liecina, ka halucinācijas vēl kādu laiku būs problēma un ka kritēriji, kas tiek izmantoti šo modeļu novērtēšanai, var nebūt pietiekami. Claude 3 Haiku modelis, kas sasniedza lielāku precizitāti, neatbildot uz aptuveni 28% jautājumu, ir viens no modeļa piemēriem, ko pētnieki piedāvā kā starprisinājumu. Programmēšana modeļus darīt to pašu. No otras puses, nav skaidrs, vai cilvēki pacietīs modeli, kas konsekventi atsakās atbildēt.
Pētnieki atbalsta tiesību aktus, kas garantē cilvēku ekspertu iesaistīšanos AI radītā satura pārbaudē, kā arī koncentrētākus centienus samazināt halucinācijas, iespējams, izmantojot cilvēka cilpas faktu pārbaudi un uzlabotas citēšanas procedūras. Viņi uzskata, ka ir liels potenciāls, lai uzlabotu faktu pārbaudes rīkus un piedāvātu satura labojumus saturam, ko mainījušas halucinācijas.