长度归一化是波束搜索或其他序列生成算法中使用的一种技术,用于解决较短或较长序列的偏差。它的目的是确保不同长度的序列的公平评估和排名,特别是在使用基于概率的评分方法时。
在集束搜索的上下文中:
已解决的问题
- 长度偏差:如果没有长度归一化,与较短的序列相比,较长的序列往往具有较低的概率,这仅仅是由于每个步骤的概率相乘。因此,较短的序列通常在波束搜索中占主导地位,因为它们出现的概率较高。
长度标准化的工作原理
-
目标:长度归一化的目标是根据候选序列的长度调整候选序列的分数或概率,以防止对任何特定长度的偏差。
-
标准化因子:它涉及通过考虑序列长度的因子来缩放序列的分数。
-
长度惩罚:通常,这涉及将对数概率(或任何评分指标)除以序列长度或应用与序列长度成反比的惩罚项。
示例
-
假设有两个序列:序列 A 的长度为 5,对数概率为 -10,序列 B 的长度为 7,对数概率为 -15。
-
如果没有长度归一化,序列 A 似乎具有更高的概率(因为 -10 > -15),即使它更短。
-
通过长度归一化,可以通过将对数概率除以各自的序列长度来调整分数:序列 A 的调整后分数变为 -10/5 = -2,序列 B 的调整后分数变为 -15/7 ≈ -2.14。
-
长度归一化后,考虑到序列 B 的长度较长,其调整概率可能会稍高。
目的和影响
-
平等评估:长度归一化旨在通过考虑序列的长度来确保序列的公平评估和排名,减轻对较短序列的偏见。
-
平衡探索:通过根据长度标准化分数,波束搜索可以更均匀地探索不同长度的序列,从而鼓励生成输出的多样性。
序列生成的重要性
-
长度归一化在输出序列长度显着变化或偏向较短或较长序列可能导致有偏差结果的任务中尤其重要。
-
它有助于在生成简洁、连贯的输出和探索更长、上下文更丰富的序列之间取得平衡。
本质上,集束搜索中的长度归一化根据候选序列的长度调整候选序列的分数,以确保公平的比较和排名,促进对不同长度序列的更平衡的探索。