Согласно недавнему исследованию, даже лучшие модели ИИ регулярно испытывают галлюцинации )) — ошибки, при которых модели генерируют ложную или вводящую в заблуждение информацию. Все модели генеративного ИИ — от Gemini от Google до Claude от Anthropic и последней GPT-4o от OpenAI — имеют эту проблему, однако тип и частота ошибок различаются в зависимости от данных обучения.
Пытаясь оценить эти галлюцинации, исследователи из Корнелла, университетов Вашингтона и Ватерлоо, а также организации AI2 сравнили результаты моделей с надежными источниками по различным предметам, включая географию, историю, здравоохранение и право. Согласно данным, ни одна модель не работала стабильно хорошо для всех людей, а те, у кого было меньше галлюцинаций, делали это отчасти потому, что они отказывались отвечать на вопросы, на которые они могли ответить ошибочно.
Исследование подчеркивает постоянную сложность использования материала, сгенерированного ИИ, поскольку даже самые продвинутые модели способны генерировать точный, лишенный галлюцинаций текст примерно в 35% случаев. Это расследование включает в себя более сложные темы, которые не охвачены Википедией, такие как культура, финансы и медицина., тогда как предыдущие исследования часто фокусировались на вопросах, на которые легко найти ответы в Википедии. Мы оценили более десятка известных моделей, таких как Gemini 1.5 Pro от Google, Llama 3 от Meta и GPT-4o.
Исследование показало, что, хотя модели ИИ продвинулись вперед, уровень галлюцинаций в них заметно не снизился. Модели OpenAI с наименьшей вероятностью давали неточные результаты; тем не менее, моделям было сложнее ответить на вопросы о финансах и знаменитостях, чем о географии и информатике.
Мало того, что модели, лишенные возможностей веб-поиска, с трудом решали проблемы, не описанные в Википедии, но и меньшие модели превзошли более крупные с точки зрения частоты галлюцинаций. Эти результаты ставят под сомнение достижения, о которых заявляют поставщики ИИ.
Исследование показывает, что галлюцинации будут проблемой в течение некоторого времени и что критерии, используемые для оценки этих моделей, могут оказаться недостаточными. Модель Claude 3 Haiku, которая достигла большей точности, не ответив примерно на 28% вопросов, является одним из примеров модели, которую исследователи предлагают в качестве промежуточного решения. Модели программирования, чтобы сделать то же самое. С другой стороны, неясно, будут ли люди терпеть модель, которая постоянно отказывается отвечать.
Исследователи поддерживают законодательство, гарантирующее участие экспертов-людей в проверке контента, созданного ИИ, а также более целенаправленные усилия по уменьшению галлюцинаций, возможно, посредством проверки фактов с участием человека и улучшенных процедур цитирования. Они считают, что существует большой потенциал для улучшения инструментов проверки фактов и предложения исправлений для контента, который был изменен галлюцинациями.