Äskettäisen tutkimuksen mukaan jopa parhaat tekoälymallit kokevat säännöllisesti hallusinaatioita ))—virheet, joissa mallit tuottavat vääriä tai harhaanjohtavia tietoja. Kaikilla generatiivisilla tekoälymalleilla – Googlen Geministä Anthropic's Claudeen ja OpenAI:n uusimpaan GPT-4o:han – on tämä ongelma, mutta virheiden tyyppi ja esiintymistiheys vaihtelevat harjoitustietojen mukaan.
Yrittäessään arvioida näitä hallusinaatioita Cornellin, Washingtonin ja Waterloon yliopistojen ja AI2-järjestön tutkijat vertasivat mallien tuloksia luotettaviin lähteisiin useissa eri aiheissa, mukaan lukien maantiede, historia, terveys ja laki. Tietojen mukaan mikään malli ei toiminut tasaisesti kaikilla yksilöillä, ja ne, jotka kokivat vähemmän hallusinaatioita, tekivät niin osittain, koska he kieltäytyivät vastaamasta kysymyksiin, joihin he saattoivat vastata virheellisesti.
Tutkimus korostaa jatkuvaa vaikeutta luottaa tekoälyn luomaan materiaaliin, sillä edistyneimmätkin mallit pystyvät luomaan tarkkaa, hallusinaatioista puuttuvaa tekstiä vain noin 35 prosentissa tapauksista. Tämä tutkimus sisältää vaikeampia aiheita, joita Wikipedia ei kata, kuten kulttuuri, rahoitus ja lääketiede, kun taas aikaisemmat tutkimukset keskittyivät usein kysymyksiin, joihin on helppo löytää vastauksia Wikipediassa. Arvioimme yli tusinaa tunnettua mallia, kuten Googlen Gemini 1.5 Pron, Meta's Llama 3:n ja GPT-4o:n.
Tutkimuksessa havaittiin, että vaikka tekoälymallit ovat kehittyneet, niiden hallusinaatioiden määrä ei ole vähentynyt merkittävästi. OpenAI:n mallit olivat vähiten tuottaneet epätarkkoja tuloksia; Silti malleilla oli enemmän vaikeuksia vastata kysymyksiin rahoituksesta ja julkkiksista kuin maantiedosta ja tietojenkäsittelytieteestä.
Sen lisäksi, että mallit, joista puuttui verkkohakukyky, kamppailivat vastatakseen ongelmiin, joita Wikipedia ei kata, vaan pienemmät mallit ylittivät suurempien hallusinaatioiden esiintymistiheyden. Nämä tulokset asettivat kyseenalaiseksi tekoälyn toimittajien väittämän edistymisen.
Tutkimus osoittaa, että hallusinaatiot tulevat olemaan ongelma vielä jonkin aikaa ja että näiden mallien arvioinnissa käytetyt kriteerit eivät välttämättä ole riittäviä. Claude 3 Haiku -malli, joka saavutti enemmän tarkkuutta jättämällä vastaamatta noin 28 prosenttiin kysymyksistä, on yksi esimerkki mallista, jota tutkijat ehdottavat väliratkaisuksi. Ohjelmoi mallit tekemään samoin. Toisaalta on epäselvää, sietävätkö ihmiset mallia, joka jatkuvasti kieltäytyy vastaamasta.
Tutkijat tukevat lainsäädäntöä, joka takaa ihmisten asiantuntijoiden osallistumisen tekoälyn tuottaman sisällön todentamiseen, sekä keskittyneempiä ponnisteluja hallusinaatioiden vähentämiseksi, mahdollisesti in-the-loop-faktien tarkistuksen ja parannettujen viittausmenetelmien avulla. He uskovat, että on olemassa paljon mahdollisuuksia parantaa tosiasiantarkistustyökaluja ja tarjota sisältökorjauksia sisältöön, jota hallusinaatiot ovat muuttaneet.