Згідно з нещодавнім дослідженням, навіть найкращі моделі ШІ регулярно відчувають галюцинації )) — помилки, коли моделі генерують неправдиву або оманливу інформацію. Усі генеративні моделі штучного інтелекту — від Gemini від Google до Claude від Anthropic і GPT-4o від OpenAI — мають цю проблему, однак тип і частота помилок відрізняються залежно від даних навчання.
Щоб оцінити ці галюцинації, дослідники з Корнельського університету, університетів Вашингтона та Ватерлоо та організації AI2 порівняли результати моделі з надійними джерелами з різних тем, включаючи географію, історію, здоров’я та право. Згідно з даними, жодна модель не працювала стабільно добре для всіх індивідуумів, і ті, хто відчував менше галюцинацій, зробили це частково через те, що вони відмовилися відповідати на запитання, на які вони могли відповісти помилково.
Дослідження підкреслює постійну складність покладатися на матеріал, створений ШІ, оскільки навіть найдосконаліші моделі здатні генерувати точний, позбавлений галюцинацій текст лише приблизно в 35% випадків. Це розслідування включає складніші теми, які не охоплюються Вікіпедією, наприклад культуру, фінанси та медицину, тоді як попередні дослідження часто зосереджувалися на питаннях із легко доступними відповідями у Вікіпедії. Ми оцінили більше десятка відомих моделей, таких як Gemini 1.5 Pro від Google, Llama 3 від Meta і GPT-4o.
Дослідження виявило, що хоча моделі штучного інтелекту просунулися, рівень галюцинацій у них помітно не зменшився. Моделі OpenAI були серед найменш імовірних, щоб дати неточні результати; однак моделям було більше проблем із відповідями на запитання про фінанси та знаменитостей, ніж про географію та інформатику.
Мало того, що моделі, які не мають можливостей веб-пошуку, не можуть відповісти на проблеми, які не розглядаються у Вікіпедії, але менші моделі перевершують більші з точки зору рівня галюцинацій. Ці результати ставлять під сумнів досягнення, про які стверджували постачальники ШІ.
Дослідження показує, що галюцинації будуть проблемою ще деякий час і що критерії, які використовуються для оцінки цих моделей, можуть бути недостатніми. Модель Claude 3 Haiku, яка досягла більшої точності, оскільки не відповідала приблизно на 28% запитань, є одним із прикладів моделі, яку дослідники пропонують як проміжне рішення. Програмування моделей для того ж. З іншого боку, незрозуміло, чи будуть люди терпіти модель, яка постійно відмовляється відповідати.
Дослідники підтримують законодавство, яке гарантує участь експертів-людей у перевірці створеного штучним інтелектом контенту, а також більш зосереджені зусилля для зменшення галюцинацій, можливо, шляхом перевірки фактів людиною в циклі та вдосконалених процедур цитування. Вони вважають, що є великий потенціал для вдосконалення інструментів перевірки фактів і пропонують виправлення контенту, який був змінений галюцинаціями.