A normalização de comprimento é uma técnica usada na busca de feixe ou outros algoritmos de geração de sequência para abordar tendências para sequências mais curtas ou mais longas. O seu objetivo é garantir uma avaliação e classificação justas de sequências de diferentes comprimentos, especialmente quando se utilizam métodos de pontuação baseados em probabilidade.
No contexto da pesquisa de feixe:
Problema resolvido
- Viés de comprimento: sem normalização de comprimento, sequências mais longas tendem a ter probabilidades mais baixas em comparação com sequências mais curtas, meramente devido à multiplicação de probabilidades em cada etapa. Como resultado, sequências mais curtas geralmente dominam a busca de feixes devido à sua maior probabilidade de ocorrência.
Como funciona a normalização de comprimento
-
Objetivo: O objetivo da normalização de comprimento é ajustar as pontuações ou probabilidades de sequências candidatas com base em seus comprimentos para evitar tendências em relação a qualquer comprimento específico.
-
Fator de Normalização: Envolve dimensionar as pontuações das sequências por um fator que leva em consideração seus comprimentos.
-
Penalização de comprimento: normalmente, isso envolve dividir a probabilidade logarítmica (ou qualquer métrica de pontuação) pelo comprimento da sequência ou aplicar um termo de penalidade que é inversamente proporcional ao comprimento da sequência.
Exemplo
-
Suponha que você tenha duas sequências: a Sequência A tem um comprimento de 5 e uma probabilidade logarítmica de -10, e a Sequência B tem um comprimento de 7 e uma probabilidade logarítmica de -15.
-
Sem normalização de comprimento, a Sequência A parece ter uma probabilidade maior (já que -10 > -15), embora seja mais curta.
-
Com a normalização do comprimento, as pontuações podem ser ajustadas dividindo as probabilidades logarítmicas pelos seus respectivos comprimentos de sequência: a pontuação ajustada da Sequência A torna-se -10/5 = -2 e a pontuação ajustada da Sequência B torna-se -15/7 ≈ -2,14.
-
Após a normalização do comprimento, a Sequência B poderá ter uma probabilidade ajustada ligeiramente superior, considerando o seu maior comprimento.
Objetivo e impacto
-
Avaliação igual: A normalização do comprimento visa garantir uma avaliação e classificação justas das sequências, considerando seus comprimentos, mitigando a tendência para sequências mais curtas.
-
Exploração Equilibrada: Ao normalizar as pontuações com base no comprimento, a pesquisa de feixe pode explorar sequências de comprimentos variados de maneira mais uniforme, incentivando a diversidade nos resultados gerados.
Importância na geração de sequência
-
A normalização do comprimento é particularmente crucial em tarefas onde o comprimento da sequência de saída varia significativamente ou onde favorecer sequências mais curtas ou mais longas pode levar a resultados tendenciosos.
-
Ajuda a encontrar um equilíbrio entre a geração de resultados concisos e coerentes e a exploração de sequências mais longas e contextualmente mais ricas.
Em essência, a normalização de comprimento na busca de feixe ajusta as pontuações das sequências candidatas com base em seus comprimentos para garantir uma comparação e classificação justas, promovendo uma exploração mais equilibrada de sequências de diferentes comprimentos.