La formation inversée pour soigner la malédiction de l'inversion

La formation inversée pour soigner la malédiction de l'inversion

Lien Arxiv

20 mars 2024

La malédiction de l'inversion

Les grands modèles de langage (LLM) tels que GPT-4 et Llama-2 ont démontré des capacités impressionnantes à comprendre et à générer des textes de type humain, englobant une vaste gamme de connaissances. Cependant, ils échouent dans une tâche apparemment simple : l'inversion des faits appris. Cette limitation, appelée "malédiction de l'inversion", implique que les LLM ne peuvent pas déduire que "B est une caractéristique de A" à partir de l'apprentissage de "A a une caractéristique B", une compétence de raisonnement de base que même les enfants possèdent. Cet article présente la "formation inversée", une nouvelle méthode pour relever ce défi en tirant parti d'une approche de formation à double sens pour améliorer la compréhension par le modèle des faits dans les formats avant et arrière.

Les origines de la malédiction de l'inversion

Le problème provient de l'approche fondamentale de formation des LLM, qui implique généralement un apprentissage autorégressif de gauche à droite. Cette méthode n'apprend pas intrinsèquement aux modèles à comprendre ou à générer des informations dans l'ordre inverse. Étant donné la nature de la distribution des données selon la loi de Zipf, de nombreux faits ne sont mentionnés que dans un sens, ce qui exacerbe ce problème. La "malédiction de l'inversion" limite la compréhension des LLM des relations réciproques et de l'équivalence dans les déclarations, marquant une lacune importante dans leurs capacités de raisonnement.

Surmonter la malédiction de l'inversion grâce à la formation inversée

La solution proposée, la formation inversée, double les données de formation disponibles en incluant à la fois les versions originales et inversées des chaînes de formation. Le processus d'inversion veille à ne pas modifier certaines sous-chaînes, telles que les noms d'entités, en conservant leur séquence originale afin de préserver le contexte. Cette méthode, qui s'apparente à l'introduction d'une seconde langue que le LLM doit apprendre, améliore considérablement la capacité du modèle à traiter et à générer des informations dans les deux sens.

Test de la méthode de formation inversée

Les auteurs ont mené les expériences suivantes pour tester la méthode proposée :

1- Tâche d'inversion symbolique : Un test en environnement contrôlé démontrant la capacité de la méthode à déduire et à appliquer des relations inversées.

2- Tâche de biographie inversée : Utilisation d'un ensemble de données biographiques pour évaluer les performances en matière de génération de noms de personnes à partir de détails donnés, à l'envers.

3- Inversion des connaissances dans le monde réel : Évaluation de l'efficacité de la méthode dans des scénarios réels, y compris l'inversion de faits concernant des célébrités et leurs relations.

4- Mise au point des faits fictifs : Tester la capacité d'apprentissage du modèle sur des faits fictifs nouvellement introduits et inversés.

Dans l'ensemble de ces expériences, l'entraînement inversé a non seulement atténué la malédiction de l'inversion mais, dans certains cas, l'a complètement éliminée. La méthode s'est avérée particulièrement efficace lorsque les noms d'entités ont été conservés dans leur ordre d'origine au cours du processus d'inversion, ce qui souligne l'importance du maintien de certains ancrages contextuels.

Implications et orientations futures

Le succès de la formation inversée dans le traitement de la malédiction de l'inversion ouvre de nouvelles voies pour les méthodologies de formation LLM. En améliorant la compréhension par les modèles des relations réciproques et de l'équivalence dans les énoncés, cette approche ouvre la voie à des capacités de raisonnement plus sophistiquées. Les recherches futures pourraient explorer l'optimisation du processus d'inversion, le potentiel d'intégration de l'entraînement inversé dans d'autres architectures de modèles de langage, et les applications plus larges de cette méthode dans les tâches de compréhension et de génération de langage naturel.

Code Labs Academy © 2024 Tous droits réservés.