최근 연구에 따르면, 최고의 AI 모델조차도 정기적으로 환각을 경험합니다. )) - 모델이 허위 또는 오해의 소지가 있는 정보를 생성하는 오류입니다. Google의 Gemini부터 Anthropic의 Claude, OpenAI의 최신 GPT-4o까지 모든 생성 AI 모델에는 이 문제가 있지만, 훈련 데이터에 따라 오류의 종류와 빈도가 다릅니다.
이러한 환각을 평가하기 위해 코넬대학교, 워싱턴대학교, 워털루대학교, AI2 조직의 연구자들은 지리, 역사, 건강, 법률을 포함한 다양한 주제에 대한 신뢰할 수 있는 출처와 모델 결과를 비교했습니다. 데이터에 따르면 모든 개인에 대해 일관되게 좋은 성능을 발휘하는 모델은 없으며, 환각을 덜 경험한 모델은 부분적으로 잘못 대답했을 수 있는 질문에 응답을 거부했기 때문에 그렇게 했습니다.
이 연구는 가장 진보된 모델조차도 약 35%의 경우에 환각 텍스트 없이 정확한 생성만 할 수 있기 때문에 AI 생성 자료에 의존하는 것이 지속적으로 어렵다는 것을 강조합니다. 이번 조사에는 문화, 금융, 의학 등 위키피디아에서 다루지 않는 더 어려운 주제가 포함됩니다., 이전 연구는 Wikipedia에서 쉽게 접근할 수 있는 답변이 있는 질문에 중점을 두는 경우가 많았습니다. 우리는 Google의 Gemini 1.5 Pro, Meta의 Llama 3, GPT-4o 등 12개 이상의 잘 알려진 모델을 평가했습니다.
연구 결과, AI 모델이 발전했지만 환각 비율은 눈에 띄게 감소하지 않은 것으로 나타났습니다. OpenAI의 모델은 부정확한 결과를 생성할 가능성이 가장 낮은 모델 중 하나였습니다. 그러나 모델들은 지리나 컴퓨터 공학에 관한 질문보다 금융과 유명인에 관한 질문에 답하는 데 더 많은 어려움을 겪었습니다.
웹 검색 기능이 부족한 모델은 Wikipedia에서 다루지 않는 문제에 답하는 데 어려움을 겪었을 뿐만 아니라 환각 비율 측면에서 작은 모델이 큰 모델보다 성능이 뛰어났습니다. 이러한 결과는 AI 공급업체가 이룩했다고 주장하는 발전에 의문을 제기합니다.
연구에 따르면 환각은 앞으로 한동안 문제가 될 것이며 이러한 모델을 평가하는 데 사용되는 기준이 충분하지 않을 수 있습니다. 대략 28%의 질문에 응답하지 않음으로써 더 높은 정확도를 얻은 Claude 3 Haiku 모델은 연구원들이 중간 솔루션으로 제안하는 모델의 한 예입니다. 동일한 작업을 수행하도록 모델을 프로그래밍합니다. 반면, 지속적으로 답변을 거부하는 모델을 사람들이 용인할지는 불분명합니다.
연구원들은 인간 전문가가 AI 생성 콘텐츠 검증에 참여하도록 보장하는 법안과 인간 참여형 사실 확인 및 개선된 인용 절차를 통해 환각을 줄이기 위한 보다 집중적인 노력을 지지합니다. 그들은 사실 확인 도구를 개선하고 환각으로 인해 변경된 콘텐츠에 대한 콘텐츠 수정을 제공할 수 있는 잠재력이 많다고 믿습니다.