逆向训练以护理逆向咒语

逆向训练以护理逆向咒语

Arxiv 链接

2024 年 3 月 20 日

逆转诅咒

GPT-4Llama-2 等大型语言模型 (LLM) 在理解方面表现出了令人印象深刻的能力并生成包含广泛知识的类似人类的文本。然而,他们却未能完成一项看似简单的任务:逆转学到的事实。这种限制被称为“逆转诅咒”,意味着法学硕士无法从学习“A 有特征 B”(即使是儿童也具备的基本推理技能)中推断出“B 是 A 的特征”。本文介绍了“反向训练”,这是一种解决这一挑战的新方法,它利用双向训练方法来增强模型对前向和反向格式事实的理解。

逆转诅咒的起源

问题源于法学硕士的基本培训方法,该方法通常涉及自回归、从左到右的学习。这种方法本身并不教导模型以相反的顺序理解或生成信息。鉴于数据分布遵循齐普夫定律的性质,许多事实仅在一个方向上提及,从而加剧了这一问题。 “逆转诅咒”限制了法学硕士对陈述中的相互关系和等价性的理解,标志着他们推理能力的重大缺陷。

通过逆向训练克服逆向魔咒

所提出的解决方案“反向训练”通过包含训练字符串的原始版本和反向版本,使可用训练数据加倍。反转过程非常小心,不要更改某些子字符串(例如实体名称),而是保持其原始序列以保留上下文。这种方法类似于引入第二种语言供法学硕士学习,显着提高了模型处理和生成两个方向信息的能力。

测试反向训练方法

作者进行了以下实验来测试他们提出的方法:

1- 符号逆向任务: 受控环境测试,证明该方法推断和应用逆向关系的能力。

2- 逆向传记任务: 利用传记数据集来评估从给定细节生成人名的性能(反向)。

**3-现实世界知识逆转:**评估该方法在现实世界场景中的有效性,包括逆转有关名人及其关系的事实。

**4-虚构事实微调:**测试模​​型对新引入的、颠倒的虚构事实的学习能力。

在这些实验中,反向训练不仅减轻了逆转诅咒,而且在某些情况下完全消除了它。当实体名称在反转过程中按其原始顺序保留时,该方法被证明特别有效,这凸显了维护某些上下文锚的重要性。

影响和未来方向

反向培训在解决反向诅咒方面的成功为法学硕士培训方法开辟了新的途径。通过增强模型对陈述中的相互关系和等价性的理解,这种方法为更复杂的推理能力打开了大门。未来的研究可能会探索逆向过程的进一步优化、将逆向训练集成到其他语言模型架构中的潜力,以及该方法在自然语言理解和生成任务中的更广泛应用。

Code Labs Academy © 2024 版权所有.