Une nouvelle étude révèle des hallucinations persistantes dans les meilleurs modèles d'IA

Une nouvelle étude révèle des hallucinations persistantes dans les meilleurs modèles d'IA

Selon une étude récente, même les meilleurs modèles d'IA subissent régulièrement des hallucinations—erreurs où les modèles génèrent des informations fausses ou trompeuses. Tous les modèles d'IA générative – du Gemini de Google à Claude d'Anthropic en passant par le plus récent GPT-4o d'OpenAI – ont ce problème, mais le type et la fréquence des erreurs diffèrent selon les données d'entraînement.

Dans le but d'évaluer ces hallucinations, des chercheurs de Cornell, des universités de Washington et de Waterloo et de l'organisation AI2 ont comparé les résultats du modèle à des sources fiables sur divers sujets, notamment la géographie, l'histoire, la santé et le droit. Selon les données, aucun modèle n'a donné de bons résultats chez tous les individus, et ceux qui ont connu moins d'hallucinations l'ont fait en partie parce qu'ils ont refusé de répondre à des questions auxquelles ils auraient pu répondre par erreur.

La recherche souligne la difficulté persistante de s’appuyer sur du matériel généré par l’IA, car même les modèles les plus avancés ne sont capables de générer un texte précis et dépourvu d’hallucinations que dans environ 35 % des cas. Cette enquête inclut des sujets plus difficiles qui ne sont pas couverts par Wikipédia, comme la culture, la finance et la médecine., alors que les études précédentes se concentraient fréquemment sur des questions dont les réponses étaient facilement accessibles sur Wikipédia. Nous avons évalué plus d'une douzaine de modèles bien connus, tels que le Gemini 1.5 Pro de Google, le Llama 3 de Meta et le GPT-4o.

L’étude a découvert que même si les modèles d’IA ont progressé, leurs taux d’hallucinations n’ont pas diminué de manière notable. Les modèles d'OpenAI étaient parmi les moins susceptibles de produire des résultats inexacts ; Pourtant, les modèles ont eu plus de mal à répondre aux questions sur la finance et les célébrités que sur la géographie et l’informatique.

Non seulement les modèles dépourvus de capacités de recherche sur le Web ont eu du mal à répondre à des problèmes non couverts par Wikipédia, mais les modèles plus petits ont surpassé les plus grands en termes de taux d'hallucinations. Ces résultats jettent le doute sur les progrès que les fournisseurs d'IA prétendent avoir réalisés.

La recherche indique que les hallucinations constitueront un problème pendant un certain temps encore et que les critères utilisés pour évaluer ces modèles pourraient ne pas être suffisants. Le modèle Claude 3 Haiku, qui a atteint plus de précision en ne répondant pas à environ 28 % des questions, est un exemple de modèle que les chercheurs proposent comme solution intermédiaire. Modèles de programmation pour faire de même. D’un autre côté, il n’est pas certain que les gens toléreront un modèle qui refuse systématiquement de répondre.

Les chercheurs soutiennent une législation qui garantit que des experts humains sont impliqués dans la vérification du contenu généré par l’IA, ainsi que des efforts plus concentrés pour réduire les hallucinations, peut-être grâce à une vérification des faits par l’humain et à des procédures de citation améliorées. Ils pensent qu’il existe un grand potentiel pour améliorer les outils de vérification des faits et proposer des correctifs pour le contenu qui a été modifié par des hallucinations.

Code Labs Academy © 2025 Tous droits réservés.