Adestramento inverso para enfermar a maldición inversa

Actualizado en September 23, 2024 3 Minutos lidos

20 de marzo de 2024

A maldición do revés

Grandes modelos lingüísticos (LLM) como GPT-4 e Llama-2 demostraron capacidades impresionantes de comprensión. e xerando texto de tipo humano, que abarca unha ampla gama de coñecementos. Non obstante, fallan nunha tarefa aparentemente sinxela: reverter os feitos aprendidos. Esta limitación, denominada "Maldición de reversión", implica que os LLM non poden deducir que "B é unha característica de A" a partir de aprender "A ten unha característica B", unha habilidade básica de razoamento que mesmo os nenos posúen. Este artigo presenta o "Adestramento inverso", un método novedoso para abordar este desafío aproveitando un enfoque de adestramento de dobre dirección para mellorar a comprensión dos feitos do modelo en formatos directos e inversos.

As orixes da maldición de reversión

O problema xorde do enfoque de formación fundamental dos LLM, que normalmente implica aprendizaxe autorregresiva, de esquerda a dereita. Este método non ensina inherentemente aos modelos a comprender ou xerar información na orde inversa. Dada a natureza da distribución de datos seguindo a lei de Zipf, moitos feitos só se mencionan nunha dirección, o que agrava este problema. A "Maldición de reversión" limita a comprensión dos LLM das relacións recíprocas e da equivalencia nas afirmacións, marcando unha deficiencia significativa nas súas capacidades de razoamento.

Superando a maldición inversa co adestramento inverso

A solución proposta, Reverse Training, duplica os datos de adestramento dispoñibles ao incluír versións orixinais e invertidas das cadeas de adestramento. O proceso de reversión ten coidado de non alterar certas subcadeas, como os nomes de entidades, mantendo a súa secuencia orixinal para preservar o contexto. Este método, semellante á introdución dunha segunda lingua para que o LLM aprenda, mellora significativamente a capacidade do modelo para procesar e xerar información en ambas direccións.

Probando o método de adestramento inverso

Os autores realizaron os seguintes experimentos para probar o método proposto:

1- Tarefa inversa simbólica: Unha proba de ambiente controlado que demostra a capacidade do método para inferir e aplicar relacións inversas.

2- Tarefa de invertir biografía: Utilizar un conxunto de datos biográficos para avaliar o rendemento na xeración de nomes de persoas a partir de detalles dados, ao revés.

3- Inversión do coñecemento do mundo real: Avaliación da eficacia do método en escenarios do mundo real, incluíndo a reversión de feitos sobre famosos e as súas relacións.

4- Axuste fino de feitos ficticios: Proba a capacidade de aprendizaxe do modelo en feitos ficticios invertidos recentemente introducidos.

A través destes experimentos, o adestramento inverso non só mitigou a maldición inversa senón que, nalgúns casos, eliminou por completo. O método resultou particularmente eficaz cando os nomes de entidades se conservaron na súa orde orixinal durante o proceso de reversión, destacando a importancia de manter certas áncoras contextuais.

Implicacións e direccións futuras

O éxito do Reverse Training para abordar a Reversal Curse abre novas vías para as metodoloxías de formación de LLM. Ao mellorar a comprensión dos modelos das relacións recíprocas e da equivalencia nos enunciados, este enfoque abre a porta a capacidades de razoamento máis sofisticadas. As investigacións futuras poden explorar unha maior optimización do proceso de reversión, o potencial para integrar o adestramento inverso noutras arquitecturas de modelos lingüísticos e aplicacións máis amplas deste método en tarefas de comprensión e xeración da linguaxe natural.