灾难性遗忘,也称为灾难性干扰,是当神经网络或机器学习模型“忘记”时发生的一种现象,或者在学习新任务后显着降低其在先前学习的任务上的表现。当针对一系列任务训练模型而不是一次性针对所有任务训练模型时,可能会发生这种情况。
灾难性遗忘的发生有几种不同的方式。一种方法是通过“过度拟合”过程 1,其中模型专注于拟合训练数据新任务会忘记先前任务的信息。另一种方式是通过“干扰”过程,其中新任务以某种方式与先前任务相关,并且模型对新任务的学习“干扰”了其对先前任务的知识。发生灾难性遗忘的一种常见方式是使用“在线学习”2 方法训练模型,其中模型不断使用新示例进行更新当他们进来时,而不是立即接受一组固定示例的培训。在这种情况下,可以向模型提供与之前训练的示例显着不同的新示例,这可能会导致模型“忘记”或显着降低其在先前任务中的性能。
有几种方法可以减轻灾难性遗忘:
-
一种方法是使用“权重正则化”3等技术,这可以帮助防止模型避免大幅改变其权重值并丢失从先前任务中获得的知识。
-
“弹性权重合并”4,其中涉及在训练期间向网络权重添加少量噪声,也可以帮助防止灾难性遗忘。这种噪声有助于“稳定”权重,从而使模型不太可能忘记有关先前任务的知识。
-
另一种方法是使用“排练”等方法 [5](https://web.archive.org/web/20200222081438id_/http://www.cs.otago.ac.nz/staffpriv/anthony/publications/ pdfs/Robins95.pdf),其中不断向模型提供以前学习的任务中的示例,以帮助其保留这些知识。
-
解决灾难性遗忘的另一种流行方法是使用“迁移学习”6,其中模型针对一项任务进行的训练针对一项相关任务进行了微调。例如,经过训练以识别狗图像的模型可能会经过微调以识别猫图像。在这种情况下,模型已经学习了许多对于识别一般动物图像有用的特征,因此它可以使用这些知识来快速学习识别猫的图像。
-
“集成方法”7,其中训练多个模型来解决不同的任务,并将它们的输出组合起来进行最终预测,也有助于防止灾难性遗忘。例如,集成模型可能由一个经过训练来识别狗图像的模型和另一个经过训练来识别猫图像的模型组成,依此类推。当出现新的示例时,集成模型可以使用其每个组成模型的输出来做出更明智的预测。
灾难性遗忘是训练机器学习模型时的一个重要考虑因素,特别是当这些模型被训练为随着时间的推移学习多个任务时。通过使用权重正则化、弹性权重合并、排练、迁移学习和集成方法等技术,可以减轻灾难性遗忘的影响并提高机器学习模型的性能。
将复杂的数据转化为可行的见解 - 加入 Code Labs Academy 的 数据科学与 AI 训练营,充分发挥机器学习和人工智能的潜力。
[1] 过度拟合冰山 (2020)
[2] 机器学习在线方法 - 理论与应用(2023年1月咨询)
[3] 深度学习中的正则化技术 (2019)
[4] 克服神经网络中的灾难性遗忘 (2017)
[5] 灾难性遗忘、排练和伪排练 (1995)
[6] 迁移学习综述 (2016)
[7] 集成学习 - 维基百科(2023年1月咨询)