Conform unui studiu recent, chiar și cele mai bune modele AI experimentează în mod regulat halucinații )) — erori în care modelele generează informații false sau înșelătoare. Toate modelele AI generative — de la Gemini de la Google la Claude de la Anthropic și cel mai recent GPT-4o de la OpenAI — au această problemă, totuși tipul și frecvența erorilor diferă în funcție de datele de antrenament.
Într-un efort de a evalua aceste halucinații, cercetătorii de la Cornell, universitățile din Washington și Waterloo și organizația AI2 au comparat rezultatele modelului cu surse de încredere pe o varietate de subiecte, inclusiv geografie, istorie, sănătate și drept. Conform datelor, niciun model nu a avut rezultate bune la toți indivizii, iar cei care au experimentat mai puține halucinații au făcut acest lucru în parte pentru că au refuzat să răspundă la întrebări la care ar fi putut răspunde eronat.
Cercetarea subliniază dificultatea persistentă de a se baza pe materialul generat de inteligență artificială, deoarece chiar și cele mai avansate modele sunt capabile să genereze doar text precis, lipsit de halucinații, în aproximativ 35% din cazuri. Această investigație include subiecte mai dificile care nu sunt acoperite de Wikipedia, cum ar fi cultura, finanțele și medicina, în timp ce studiile anterioare s-au concentrat frecvent pe întrebări cu răspunsuri ușor accesibile pe Wikipedia. Am evaluat mai mult de o duzină de modele cunoscute, cum ar fi Gemini 1.5 Pro de la Google, Llama 3 de la Meta și GPT-4o.
Studiul a descoperit că, deși modelele AI au avansat, ratele lor de halucinații nu au scăzut semnificativ. Modelele OpenAI au fost printre cele mai puțin susceptibile de a produce rezultate inexacte; totuși, modelele au avut mai multe probleme în a răspunde întrebărilor despre finanțe și celebrități decât au făcut despre geografie și informatică.
Nu numai că modelele lipsite de capacități de căutare pe web s-au luptat să răspundă problemelor care nu sunt acoperite de Wikipedia, dar modelele mai mici le-au depășit pe cele mai mari în ceea ce privește rata halucinațiilor. Aceste rezultate pun la îndoială progresele pe care furnizorii de AI susțin că le-au făcut.
Cercetarea indică faptul că halucinațiile vor fi o problemă pentru ceva timp și că criteriile utilizate pentru evaluarea acestor modele ar putea să nu fie suficiente. Modelul Claude 3 Haiku, care a obținut mai multă acuratețe prin faptul că nu a răspuns la aproximativ 28% dintre întrebări, este un exemplu de model pe care cercetătorii îl propun ca soluție intermediară. Modele de programare să facă același lucru. Pe de altă parte, nu este clar dacă oamenii vor tolera un model care refuză constant să răspundă.
Cercetătorii susțin legislația care garantează că experții umani sunt implicați în verificarea conținutului generat de inteligență artificială, precum și eforturi mai concentrate pentru a reduce halucinațiile, poate prin verificarea faptelor uman-in-the-loop și proceduri îmbunătățite de citare. Ei cred că există mult potențial de a îmbunătăți instrumentele de verificare a faptelor și de a oferi remedieri de conținut pentru conținutul care a fost modificat de halucinații.