Según un estudio reciente, incluso los mejores modelos de IA experimentan regularmente alucinaciones: errores en los que los modelos generan información falsa o engañosa. Todos los modelos de IA generativa, desde Gemini de Google hasta Claude de Anthropic y el GPT-4o más reciente de OpenAI, tienen este problema; sin embargo, el tipo y la frecuencia de los errores difieren según los datos de entrenamiento.
En un esfuerzo por evaluar estas alucinaciones, investigadores de Cornell, las universidades de Washington y Waterloo y la organización AI2 compararon los resultados del modelo con fuentes confiables sobre una variedad de temas, incluidos geografía, historia, salud y derecho. Según los datos, ningún modelo funcionó bien de manera consistente en todos los individuos, y los que experimentaron menos alucinaciones lo hicieron en parte porque se negaron a responder preguntas que podrían haber respondido erróneamente.
La investigación subraya la persistente dificultad de confiar en material generado por IA, ya que incluso los modelos más avanzados solo son capaces de generar texto preciso y libre de alucinaciones en aproximadamente el 35% de los casos. Esta investigación incluye temas más difíciles que no están cubiertos por Wikipedia, como cultura, finanzas y medicina., mientras que estudios anteriores se centraban frecuentemente en preguntas con respuestas fácilmente accesibles en Wikipedia. Evaluamos más de una docena de modelos conocidos, como el Gemini 1.5 Pro de Google, el Llama 3 de Meta y el GPT-4o.
El estudio descubrió que, aunque los modelos de IA han avanzado, sus tasas de alucinaciones no han disminuido notablemente. Los modelos de OpenAI estaban entre los que tenían menos probabilidades de producir resultados inexactos; sin embargo, los modelos tuvieron más problemas para responder preguntas sobre finanzas y celebridades que sobre geografía e informática.
No sólo los modelos que carecían de capacidades de búsqueda web tuvieron dificultades para responder a problemas no cubiertos por Wikipedia, sino que los modelos más pequeños superaron a los más grandes en términos de tasa de alucinaciones. Estos resultados arrojan dudas sobre los avances que los proveedores de IA afirman haber realizado.
La investigación indica que las alucinaciones van a ser un problema durante algún tiempo y que los criterios que se utilizan para evaluar estos modelos pueden no ser suficientes. El modelo Claude 3 Haiku, que logró mayor precisión al no responder aproximadamente al 28% de las preguntas, es un ejemplo de un modelo que los investigadores proponen como solución intermedia. Modelos de programación para hacer lo mismo. Por otro lado, no está claro si la gente tolerará un modelo que sistemáticamente se niega a responder.
Los investigadores apoyan una legislación que garantice que expertos humanos participen en la verificación del contenido generado por IA, así como esfuerzos más concentrados para reducir las alucinaciones, tal vez a través de la verificación de hechos por parte de humanos y mejores procedimientos de citación. Creen que hay mucho potencial para mejorar las herramientas de verificación de datos y ofrecer correcciones de contenido que ha sido alterado por alucinaciones.