De acordo com um estudo recente, mesmo os melhores modelos de IA experimentam regularmente alucinações—erros em que os modelos geram informações falsas ou enganosas. Todos os modelos generativos de IA – desde o Gemini do Google até o Claude da Anthropic e o mais recente GPT-4o da OpenAI – têm esse problema, no entanto, o tipo e a frequência dos erros diferem de acordo com os dados de treinamento.
Num esforço para avaliar estas alucinações, investigadores de Cornell, das universidades de Washington e Waterloo, e da organização AI2 compararam os resultados do modelo com fontes fiáveis sobre uma variedade de assuntos, incluindo geografia, história, saúde e direito. Nenhum modelo teve um desempenho consistentemente bom em todos os indivíduos, de acordo com os dados, e aqueles que tiveram menos alucinações o fizeram em parte porque se recusaram a responder a perguntas que poderiam ter respondido erroneamente.
A pesquisa ressalta a dificuldade persistente de confiar em material gerado por IA, já que mesmo os modelos mais avançados só são capazes de gerar textos precisos e desprovidos de alucinações em aproximadamente 35% dos casos. Esta investigação inclui assuntos mais difíceis que não são abordados pela Wikipedia, como cultura, finanças e medicina, enquanto estudos anteriores frequentemente focavam em questões com respostas facilmente acessíveis na Wikipédia. Avaliamos mais de uma dúzia de modelos conhecidos, como o Gemini 1.5 Pro do Google, o Llama 3 da Meta e o GPT-4o.
O estudo descobriu que, embora os modelos de IA tenham avançado, as taxas de alucinações não diminuíram visivelmente. Os modelos da OpenAI estavam entre os menos propensos a produzir resultados imprecisos; ainda assim, os modelos tiveram mais dificuldade em responder perguntas sobre finanças e celebridades do que sobre geografia e ciência da computação.
Não só os modelos sem capacidades de pesquisa na Web lutaram para responder a problemas não cobertos pela Wikipédia, mas os modelos mais pequenos superaram os maiores em termos de taxa de alucinação. Estes resultados lançam dúvidas sobre os avanços que os fornecedores de IA afirmam ter feito.
A investigação indica que as alucinações serão um problema durante algum tempo e que os critérios utilizados para avaliar estes modelos podem não ser suficientes. O modelo Claude 3 Haiku, que obteve maior precisão ao não responder a cerca de 28% das questões, é um exemplo de modelo que os pesquisadores propõem como solução intermediária. Programando modelos para fazer o mesmo. Por outro lado, não está claro se as pessoas irão tolerar um modelo que se recusa consistentemente a responder.
Os investigadores apoiam legislação que garanta que especialistas humanos estejam envolvidos na verificação de conteúdos gerados por IA, bem como esforços mais concentrados para reduzir alucinações, talvez através de verificação de factos humana e procedimentos de citação melhorados. Eles acreditam que há muito potencial para melhorar as ferramentas de verificação de fatos e oferecer correções de conteúdo que foram alterados por alucinações.