Un novo estudo revela alucinacións persistentes nos principais modelos de IA

Un novo estudo revela alucinacións persistentes nos principais modelos de IA

Segundo un estudo recente, incluso os mellores modelos de IA experimentan regularmente alucinacións )): erros nos que os modelos xeran información falsa ou enganosa. Todos os modelos de IA xerativa, desde Gemini de Google ata Claude de Anthropic e o GPT-4o máis recente de OpenAI, teñen este problema, pero o tipo e a frecuencia dos erros difiren segundo os datos de adestramento.

Nun esforzo por avaliar estas alucinacións, investigadores de Cornell, as universidades de Washington e Waterloo e a organización AI2 compararon os resultados do modelo con fontes fiables sobre unha variedade de temas, incluíndo xeografía, historia, saúde e dereito. Segundo os datos, ningún modelo funcionou ben de forma consistente en todos os individuos, e os que experimentaron menos alucinacións fixérono en parte porque se negaron a responder a preguntas que poderían ter contestado de forma errónea.

A investigación subliña a persistente dificultade de confiar no material xerado pola IA, xa que incluso os modelos máis avanzados só son capaces de xerar texto preciso e carente de alucinacións en aproximadamente o 35% dos casos. Esta investigación inclúe temas máis difíciles que non están cubertos pola Wikipedia, como cultura, finanzas e medicina, mentres que os estudos anteriores centráronse con frecuencia en preguntas con respostas de fácil acceso na Wikipedia. Avaliamos máis dunha ducia de modelos coñecidos, como o Gemini 1.5 Pro de Google, o Llama 3 de Meta e o GPT-4o.

O estudo descubriu que aínda que os modelos de IA avanzaron, as súas taxas de alucinacións non diminuíron notablemente. Os modelos de OpenAI estaban entre os menos propensos a producir resultados inexactos; aínda así, os modelos tiveron máis problemas para responder preguntas sobre finanzas e famosos que sobre xeografía e informática.

Non só os modelos que carecían de capacidades de busca na web loitaron por responder a problemas non tratados pola Wikipedia, senón que os modelos máis pequenos superaron aos maiores en termos de taxa de alucinacións. Estes resultados poñen en dúbida os avances que os provedores de IA afirmaron ter feito.

A investigación indica que as alucinacións van ser un problema durante algún tempo e que os criterios que se utilizan para avaliar estes modelos poden non ser suficientes. O modelo Claude 3 Haiku, que alcanzou máis precisión ao non responder a aproximadamente o 28% das preguntas, é un exemplo dun modelo que os investigadores propoñen como solución intermedia. Programación de modelos para facer o mesmo. Por outra banda, non está claro se a xente tolerará un modelo que se nega constantemente a responder.

Os investigadores apoian a lexislación que garante que os expertos humanos estean implicados na verificación do contido xerado pola intelixencia artificial, así como esforzos máis concentrados para reducir as alucinacións, quizais a través da comprobación de feitos en humanos e procedementos de citación mellorados. Cren que hai moito potencial para mellorar as ferramentas de verificación de feitos e ofrecer correccións de contido para o contido que foi alterado por alucinacións.

Code Labs Academy © 2025 Todos os dereitos reservados.