길이 정규화는 더 짧거나 긴 시퀀스에 대한 편향을 해결하기 위해 빔 검색 또는 기타 시퀀스 생성 알고리즘에 사용되는 기술입니다. 이는 특히 확률 기반 채점 방법을 사용할 때 다양한 길이의 시퀀스에 대한 공정한 평가 및 순위를 보장하는 것을 목표로 합니다.
빔 검색의 맥락에서:
해결된 문제
- 길이 편향: 길이 정규화가 없으면 각 단계의 확률 곱셈으로 인해 더 긴 시퀀스가 더 짧은 시퀀스에 비해 확률이 낮아지는 경향이 있습니다. 결과적으로 더 짧은 시퀀스가 발생 확률이 높기 때문에 빔 검색에서 지배적인 경우가 많습니다.
길이 정규화 작동 방식
-
목표: 길이 정규화의 목표는 특정 길이에 대한 편향을 방지하기 위해 길이를 기준으로 후보 시퀀스의 점수 또는 확률을 조정하는 것입니다.
-
정규화 인자: 시퀀스의 길이를 고려한 인자로 시퀀스 점수를 조정하는 작업이 포함됩니다.
-
길이 페널티: 일반적으로 로그 확률(또는 점수 측정 기준)을 시퀀스 길이로 나누거나 시퀀스 길이에 반비례하는 페널티 항을 적용하는 것이 포함됩니다.
예시
-
두 개의 시퀀스가 있다고 가정합니다. 시퀀스 A의 길이는 5이고 로그 확률은 -10이고, 시퀀스 B의 길이는 7이고 로그 확률은 -15입니다.
-
길이 정규화가 없으면 시퀀스 A는 더 짧음에도 불구하고 더 높은 확률(-10 > -15)을 갖는 것으로 보입니다.
-
길이 정규화를 사용하면 로그 확률을 해당 시퀀스 길이로 나누어 점수를 조정할 수 있습니다. 시퀀스 A의 조정 점수는 -10/5 = -2가 되고 시퀀스 B의 조정 점수는 -15/7 ≒ -2.14가 됩니다.
-
길이 정규화 후 시퀀스 B는 더 긴 길이를 고려하여 조정 확률이 약간 더 높을 수 있습니다.
목적 및 영향
-
균등 평가: 길이 정규화는 길이를 고려하여 시퀀스의 공정한 평가와 순위를 보장하고 더 짧은 시퀀스에 대한 편향을 완화하는 것을 목표로 합니다.
-
균형 탐색: 길이를 기준으로 점수를 정규화함으로써 빔 검색은 다양한 길이의 시퀀스를 보다 균일하게 탐색할 수 있어 생성된 출력의 다양성을 장려합니다.
시퀀스 생성의 중요성
-
길이 정규화는 출력 시퀀스의 길이가 크게 달라지거나 더 짧거나 긴 시퀀스를 선호하면 편향된 결과가 발생할 수 있는 작업에서 특히 중요합니다.
-
간결하고 일관된 출력을 생성하는 것과 더 길고 상황에 맞게 풍부한 시퀀스를 탐색하는 것 사이의 균형을 맞추는 데 도움이 됩니다.
본질적으로 빔 검색의 길이 정규화는 공정한 비교 및 순위를 보장하기 위해 길이를 기준으로 후보 시퀀스의 점수를 조정하여 다양한 길이의 시퀀스에 대한 보다 균형 잡힌 탐색을 촉진합니다.