Згодна з нядаўнім даследаваннем, нават лепшыя мадэлі штучнага інтэлекту рэгулярна адчуваюць галюцынацыі ))—памылкі, калі мадэлі генеруюць ілжывую або зманлівую інфармацыю. Усе генератыўныя мадэлі AI — ад Gemini Google да Claude ад Anthropic і GPT-4o ад OpenAI — маюць гэтую праблему, аднак тып і частата памылак адрозніваюцца ў залежнасці ад даных навучання.
У спробе ацаніць гэтыя галюцынацыі даследчыкі з Корнельскага універсітэтаў, універсітэтаў Вашынгтона і Ватэрлоо і арганізацыі AI2 параўналі вынікі мадэляў з надзейнымі крыніцамі па розных тэмах, уключаючы геаграфію, гісторыю, здароўе і права. Згодна з дадзенымі, ніводная мадэль не працавала стабільна добра ва ўсіх людзей, а тыя, хто адчуваў менш галюцынацый, часткова рабілі гэта таму, што яны адмаўляліся адказваць на пытанні, на якія маглі адказаць памылкова.
Даследаванне падкрэслівае нязменную цяжкасць спадзявацца на матэрыялы, створаныя штучным інтэлектам, паколькі нават самыя прасунутыя мадэлі здольныя ствараць дакладны тэкст, пазбаўлены галюцынацый, толькі ў 35% выпадкаў. Гэта расследаванне ўключае ў сябе больш складаныя тэмы, якія не Вікіпедыя, такія як культура, фінансы і медыцына, у той час як папярэднія даследаванні часта засяроджваліся на пытаннях з лёгка даступнымі адказамі ў Вікіпедыі. Мы ацанілі больш за дзясятак вядомых мадэляў, такіх як Gemini 1.5 Pro ад Google, Llama 3 ад Meta і GPT-4o.
Даследаванне выявіла, што, хоць мадэлі штучнага інтэлекту прасунуліся наперад, узровень галюцынацый у іх прыкметна не знізіўся. Мадэлі OpenAI былі аднымі з тых, хто менш за ўсё даваў недакладныя вынікі; аднак у мадэляў было больш праблем з адказамі на пытанні аб фінансах і знакамітасцях, чым аб геаграфіі і інфарматыцы.
Мала таго, што мадэлі, у якіх адсутнічаюць магчымасці вэб-пошуку, з цяжкасцю адказваюць на праблемы, якія не разглядаюцца ў Вікіпедыі, але меншыя мадэлі пераўзыходзяць больш буйныя з пункту гледжання ўзроўню галюцынацый. Гэтыя вынікі ставяць пад сумнеў дасягненні, якія, як сцвярджаюць пастаўшчыкі штучнага інтэлекту, зрабілі.
Даследаванне паказвае, што галюцынацыі будуць праблемай яшчэ некаторы час і што крытэрыяў, якія выкарыстоўваюцца для ацэнкі гэтых мадэляў, можа быць недастаткова. Мадэль Claude 3 Haiku, якая дасягнула большай дакладнасці, не адказваючы прыкладна на 28% пытанняў, з'яўляецца адным з прыкладаў мадэлі, якую даследчыкі прапануюць у якасці прамежкавага рашэння. Праграмаванне мадэляў, каб зрабіць тое ж самае. З іншага боку, незразумела, ці будуць людзі цярпець мадэль, якая паслядоўна адмаўляецца адказваць.
Даследчыкі падтрымліваюць заканадаўства, якое гарантуе ўдзел экспертаў-людзей у праверцы змесціва, створанага штучным інтэлектам, а таксама больш канцэнтраваныя намаганні па зніжэнні галюцынацый, магчыма, шляхам праверкі фактаў чалавекам у цыкле і паляпшэння працэдур цытавання. Яны лічаць, што існуе вялікі патэнцыял для паляпшэння інструментаў праверкі фактаў і прапановы выпраўленняў для кантэнту, які быў зменены галюцынацыямі.