Ikerketa berriak haluzinazio iraunkorrak agerian uzten ditu AI eredu nagusietan

Eguneratua September 24, 2024 2 Irakurri minutuak

Azken ikerketa baten arabera, AI eredu onenek ere [aluzinazioak] izaten dituzte aldizka (https://en.wikipedia.org/wiki/Hallucination_\(adimen_artifiziala) ))— ereduek informazio faltsua edo engainagarria sortzen duten erroreak. Sorkuntzako AI eredu guztiek —Google-ren Gemini-tik hasi eta Anthropic-en Claude-raino eta OpenAI-ren azken GPT-4o-ra- arazo hau dute, baina erroreen mota eta maiztasuna desberdinak dira prestakuntza-datuen arabera.

Haluzinazio horiek ebaluatzeko ahaleginean, Cornelleko, Washington eta Waterlooko unibertsitateetako eta AI2 erakundeko ikertzaileek ereduen irteerak alderatu zituzten hainbat gairi buruzko iturri fidagarriekin, besteak beste, geografia, historia, osasuna eta zuzenbidea. Datuen arabera, ez zen eredurik izan gizabanako guztietan koherentziaz ondo, eta aluzinazio gutxiago jasan zituztenek, neurri batean, oker erantzun ziezaiekeen galderei erantzun nahi uko egin zielako.

Ikerketak azpimarratzen du AI-k sortutako materiala fidatzeko zailtasun iraunkorra, eredu aurreratuenek ere gai zehatza eta aluzinaziorik gabeko testua sortzeko gai baitira kasuen % 35 gutxi gorabehera. Ikerketa honek Wikipediak jasotzen dituena ez diren gai zailagoak barne hartzen ditu, hala nola kultura, finantzak eta medikuntza., aurreko ikerketek maiz Wikipedian erraz eskura daitezkeen erantzunak dituzten galderetan zentratu ziren. Dozena bat modelo ezagun baino gehiago ebaluatu ditugu, hala nola Google-ren Gemini 1.5 Pro, Meta-ren Llama 3 eta GPT-4o.

Ikerketak aurkitu du AI ereduak aurreratu diren arren, haien haluzinazio-tasak ez direla nabarmen murriztu. OpenAIren ereduak emaitza okerrak emateko aukera gutxienetakoak ziren; hala ere, modeloek arazo gehiago izan zituzten finantzei eta ospetsuei buruzko galderei erantzuteko geografiari eta informatikari buruz baino.

Web bilaketa-gaitasunik ez zuten ereduek Wikipediak jasotzen ez dituen arazoei erantzuteko zailtasunak ez ezik, modelo txikiek handiagoak gainditu zituzten haluzinazio-tasari dagokionez. Emaitza hauek AI hornitzaileek esandako aurrerapenei buruz zalantzan jartzen dute.

Ikerketak adierazten du haluzinazioak arazo izango direla denbora batean eta baliteke eredu horiek ebaluatzeko erabiltzen ari diren irizpideak nahikoak ez izatea. Claude 3 Haiku eredua, zeina zehaztasun handiagoa lortu zuen galderen %28 gutxi gorabehera erantzun ezean, ikertzaileek tarteko irtenbide gisa proposatzen duten ereduaren adibide bat da. Programazio ereduak gauza bera egiteko. Bestalde, ez dago argi jendeak koherentziaz erantzuteari uko egiten dion eredua onartuko duen.

Ikertzaileek AI-k sortutako edukia egiaztatzen giza adituek parte hartzen dutela bermatzen duten legedia onartzen dute, baita haluzinazioak murrizteko ahalegin kontzentratuagoak ere, agian giza-erregimenak egiaztatzeko eta aipamen-prozedura hobetuen bidez. Uste dute gertakariak egiaztatzeko tresnak hobetzeko eta haluzinazioek aldatutako edukietarako edukien konponketak eskaintzeko potentzial handia dagoela.