자연어 처리(NLP) 및 언어 번역이나 텍스트 생성과 같은 시퀀스 생성 작업 영역에서 빔 검색 알고리즘과 탐욕스러운 디코딩은 주어진 모델에서 가장 가능성이 높은 단어 시퀀스를 예측하는 데 사용됩니다. 그리고 입력 순서.
그리디 디코딩
-
핵심 아이디어: 그리디 디코딩은 각 단계에서 확률이 가장 높은 단어를 선택하여 반복적으로 출력 시퀀스를 구축합니다.
-
검색 공간 탐색: 출력 공간을 통해 단일 경로를 탐색하여 향후 결과를 고려하지 않고 각 단계에서 가장 가능성이 높은 단어를 선호합니다.
-
후보 시퀀스: 각 단계에서 가장 가능성이 높은 시퀀스만 추적하고 다른 가능성은 무시합니다.
-
의사결정: 잠재적인 장기적인 결과를 고려하지 않고 현재 단계에서 가장 높은 확률만을 기반으로 로컬 결정을 내립니다.
빔 검색
-
핵심 아이디어: 빔 검색은 가장 가능성이 높은 시퀀스가 아닌 여러 가능한 시퀀스로 탐색을 확장합니다.
-
검색 공간 탐색: 유망한 후보 시퀀스 세트를 유지하면서 여러 경로(또는 "빔")를 동시에 탐색합니다.
-
후보 시퀀스: 각 단계에서 가장 가능성이 높은 시퀀스(빔 폭 매개변수에 의해 결정됨)의 고정된 수를 유지합니다.
-
의사결정: 각 단계에서 여러 후보 시퀀스를 고려하고 해당 시점까지의 누적 확률을 바탕으로 가장 가능성 있는 시퀀스를 선택합니다.
빔 폭 매개변수 및 장단점
- 빔 폭: 각 단계에서 유지할 후보 시퀀스의 수를 결정합니다. 빔 폭이 클수록 더 많은 가능성이 탐색되지만 계산 복잡성이 증가합니다.
장점:
-
다양성 대 정확도: 빔 폭이 클수록 생성된 시퀀스의 다양성이 향상되지만 정확도가 저하될 수 있습니다. 반대로, 너비가 작을수록 더 정확한 결과를 제공할 수 있지만 다양성이 부족할 수 있습니다.
-
계산 비용: 빔 폭을 늘리면 필요한 계산 리소스가 크게 늘어납니다.
다양성과 정확성 비교
- 빔 검색은 관리 가능한 후보 세트를 유지하면서 여러 시퀀스를 탐색할 수 있도록 하여 다양성과 정확성의 균형을 맞추려고 시도합니다. 길이 정규화 또는 다양한 빔 검색 변형과 같은 기술은 품질을 크게 희생하지 않고도 다양성을 향상시킬 수 있습니다.
제한 사항 및 최적이 아닌 결과
-
최적화: 각 단계에서 가장 가능성 있는 시퀀스가 반드시 최상의 전체 시퀀스로 이어지지 않는 경우 빔 검색이 차선의 결과를 생성할 수 있습니다.
-
탐색 부족: 특히 실제 최적 시퀀스가 각 단계에서 가장 가능성이 높은 개별 단어에서 크게 벗어나는 경우 로컬 최적 상태에 걸릴 수 있습니다.
-
지수적 증가: 검색 공간은 빔 폭에 따라 기하급수적으로 증가하여 계산 요구 사항이 증가합니다.
길이 페널티, 다양한 빔 검색 변형 또는 추가 제약 조건 통합과 같은 전략을 사용하면 이러한 제한 사항 중 일부를 완화할 수 있지만 광대한 검색 공간을 효과적으로 탐색하는 데 내재된 문제를 완전히 해결하지는 못할 수도 있습니다. 연구자들은 특정 작업 요구 사항과 필요한 다양성과 정확성 간의 균형을 기반으로 다양한 디코딩 전략을 실험하는 경우가 많습니다.