Nuwe studie onthul aanhoudende hallusinasies in top KI-modelle

Nuwe studie onthul aanhoudende hallusinasies in top KI-modelle

Volgens 'n onlangse studie, ervaar selfs die beste KI-modelle gereeld hallusinasies ))—foute waar die modelle vals of misleidende inligting genereer. Alle generatiewe KI-modelle—van Google se Gemini tot Anthropic se Claude en OpenAI se mees onlangse GPT-4o—het hierdie probleem, maar die soort en frekwensie van foute verskil volgens opleidingsdata.

In 'n poging om hierdie hallusinasies te evalueer, het navorsers van Cornell, die universiteite van Washington en Waterloo, en die organisasie AI2 modeluitsette vergelyk met betroubare bronne oor 'n verskeidenheid onderwerpe, insluitend geografie, geskiedenis, gesondheid en die regte. Geen model het konsekwent goed oor alle individue presteer nie, volgens die data, en diegene wat minder hallusinasies ervaar het, het dit deels gedoen omdat hulle geweier het om te reageer op vrae wat hulle moontlik verkeerd beantwoord het.

Die navorsing beklemtoon die aanhoudende moeilikheid om op KI-gegenereerde materiaal staat te maak, aangesien selfs die mees gevorderde modelle slegs in ongeveer 35% van die gevalle presiese teks sonder hallusinasies kan genereer. Hierdie ondersoek sluit moeiliker onderwerpe in wat nie gedek word deur Wikipedia, soos kultuur, finansies en medisyne, terwyl vorige studies gereeld gefokus het op vrae met maklik toeganklike antwoorde op Wikipedia. Ons het meer as 'n dosyn bekende modelle geëvalueer, soos Google se Gemini 1.5 Pro, Meta se Llama 3 en GPT-4o.

Die studie het ontdek dat hoewel KI-modelle gevorder het, hul tempo van hallusinasies nie merkbaar afgeneem het nie. OpenAI se modelle was van die minste geneig om onakkurate resultate te lewer; tog het die modelle meer probleme gehad om vrae oor finansies en bekende persoonlikhede te beantwoord as oor aardrykskunde en rekenaarwetenskap.

Modelle wat nie net soekvermoëns het nie, het nie net gesukkel om probleme te beantwoord wat nie deur Wikipedia gedek word nie, maar kleiner modelle het groter presteer in terme van hallusinasietempo. Hierdie resultate skep twyfel oor die vordering wat KI-verskaffers beweer het hulle gemaak het.

Die navorsing dui daarop dat hallusinasies nog 'n geruime tyd 'n probleem gaan wees en dat die kriteria wat gebruik word om hierdie modelle te assesseer dalk nie voldoende is nie. Die Claude 3 Haiku-model, wat meer akkuraatheid verkry het deur nie op ongeveer 28% van die vrae te reageer nie, is een voorbeeld van 'n model wat die navorsers as 'n tussenoplossing voorstel. Programmering modelle om dieselfde te doen. Aan die ander kant is dit onduidelik of mense 'n model sal duld wat konsekwent weier om te antwoord.

Die navorsers ondersteun wetgewing wat waarborg dat menslike kundiges betrokke is by die verifiëring van KI-gegenereerde inhoud, sowel as meer gekonsentreerde pogings om hallusinasies te verminder, miskien deur mens-in-die-lus feitekontrole en verbeterde aanhalingsprosedures. Hulle glo daar is baie potensiaal om feitekontrole-instrumente te verbeter en inhoudoplossings aan te bied vir inhoud wat deur hallusinasies verander is.

Code Labs Academy © 2025 Alle regte voorbehou.