最新の研究により、上位の AI モデルにおける持続的な幻覚が明らかになりました

最新の研究により、上位の AI モデルにおける持続的な幻覚が明らかになりました

最近の研究によると、最高の AI モデルでも定期的に 幻覚 を経験します。 )) - モデルが誤った情報または誤解を招く情報を生成するエラー。 Google の Gemini から Anthropic の Claude、OpenAI の最新の GPT-4o まで、すべての生成 AI モデルにはこの問題がありますが、エラーの種類と頻度はトレーニング データによって異なります。

これらの幻覚を評価するために、コーネル大学、ワシントン大学、ウォータールー大学、AI2 という組織の研究者らは、モデルの出力を、地理、歴史、健康、法律などのさまざまなテーマに関する信頼できる情報源と比較しました。データによると、すべての個体において一貫して良好な成績を収めたモデルは存在せず、幻覚の経験が少なかったモデルは、誤って回答した可能性のある質問への回答を拒否したことも一因であった。

この研究は、最も先進的なモデルでも、幻覚のない正確なテキストを生成できるのはケースの約 35% に過ぎないため、AI によって生成されたマテリアルに依存することの依然として困難さを浮き彫りにしています。この調査には、文化、金融、医学など、Wikipedia で取り上げられていない より難しい主題が含まれています。 、一方、以前の研究では、ウィキペディアで簡単にアクセスできる答えがある質問に焦点を当てることが多かった。 Google の Gemini 1.5 Pro、Meta の Llama 3、GPT-4o など、十数の有名なモデルを評価しました。

この研究では、AI モデルは進歩しているにもかかわらず、幻覚の発生率が目立って減少していないことが判明しました。 OpenAI のモデルは、不正確な結果を生成する可能性が最も低いモデルの 1 つでした。しかしモデルたちは、地理やコンピューターサイエンスに関する質問よりも、金融や有名人に関する質問に答えるのに苦労しました。

ウェブ検索機能を持たないモデルは、ウィキペディアでカバーされていない問題に答えるのに苦労しただけでなく、幻覚発生率の点で小型モデルの方が大型モデルを上回りました。これらの結果は、AI サプライヤーが主張してきた進歩に疑問を投げかけています。

この研究は、幻覚が今後しばらくは問題となり、これらのモデルを評価するために使用されている基準が十分ではない可能性があることを示しています。 Claude 3 Haiku モデルは、質問の約 28% に回答しないことでより正確さを達成しましたが、研究者が中間的な解決策として提案したモデルの一例です。同じことを行うようにモデルをプログラミングします。一方で、一貫して回答を拒否するモデルを人々が容認するかどうかは不明です。

研究者らは、AIが生成したコンテンツの検証に人間の専門家が関与することを保証する法律を支持しているほか、おそらく人間による事実確認や引用手順の改善などを通じて、幻覚を減らすためのより集中的な取り組みを行っている。彼らは、事実確認ツールを改善し、幻覚によって変更されたコンテンツの修正を提供する可能性がたくさんあると信じています。

Code Labs Academy © 2025 無断転載を禁じます.