根据最近的一项研究,即使是最好的人工智能模型也会经常经历幻觉 ))—模型生成虚假或误导性信息的错误。所有生成式 AI 模型(从 Google 的 Gemini 到 Anthropic 的 Claude 以及 OpenAI 最新的 GPT-4o)都存在此问题,但错误的类型和频率根据训练数据而有所不同。
为了评估这些幻觉,来自康奈尔大学、华盛顿大学和滑铁卢大学以及 AI2 组织的研究人员将模型输出与各种学科的可靠来源进行了比较,包括地理、历史、健康和法律。根据数据,没有一个模型能够在所有个体中始终表现良好,而那些经历过较少幻觉的人之所以能做到这一点,部分原因是他们拒绝回答他们可能回答错误的问题。
该研究强调了依赖人工智能生成材料的持续困难,因为即使是最先进的模型也只能在大约 35% 的情况下生成精确的、没有幻觉的文本。这项调查包括[维基百科]没有涵盖的更困难的主题(https://www.nytimes.com/2023/07/18/magazine/wikipedia-ai-chatgpt.html),例如文化、金融和医学,而之前的研究经常关注维基百科上容易找到答案的问题。我们评估了十多个知名模型,例如 Google 的 Gemini 1.5 Pro、Meta 的 Llama 3 和 GPT-4o。
研究发现,虽然人工智能模型已经进步,但它们的幻觉发生率并没有明显下降。 OpenAI 的模型是最不可能产生不准确结果的模型之一;然而,这些模型在回答有关金融和名人的问题时比回答有关地理和计算机科学的问题更困难。
缺乏网络搜索功能的模型不仅难以回答维基百科未涵盖的问题,而且较小的模型在幻觉率方面优于较大的模型。这些结果使人们对人工智能供应商声称取得的进步产生了怀疑。
研究表明,幻觉将在未来一段时间内成为一个问题,用于评估这些模型的标准可能还不够。 Claude 3 Haiku 模型通过不回答大约 28% 的问题而获得了更高的准确度,它是研究人员提出的作为中间解决方案的模型的一个例子。对模型进行编程以执行相同的操作。另一方面,尚不清楚人们是否会容忍一个始终拒绝回答的模型。
研究人员支持立法,保证人类专家参与验证人工智能生成的内容,以及更集中地努力减少幻觉,也许通过人在环事实检查和改进的引用程序。他们认为,改进事实检查工具并为因幻觉而改变的内容提供内容修复有很大的潜力。