NLP의 BLEU 점수 이해: 번역 품질 평가

BLEU 점수
자연어 처리
기계 번역 평가
NLP의 BLEU 점수 이해: 번역 품질 평가 cover image

정의

BLEU(BiLingual Evaluation Understudy)는 자연어 처리(NLP) 및 기계 번역에서 생성된 텍스트의 품질을 평가하는 데 사용되는 측정항목입니다. 하나 이상의 고품질 참조 번역. 기계 생성 텍스트가 하나 이상의 인간 생성 참조 텍스트와 얼마나 유사한지를 측정합니다.

BLEU는 생성된 텍스트와 참조 텍스트 간의 n-gram(n개의 연속 단어 시퀀스)을 비교하는 방식으로 작동합니다. 생성된 텍스트의 n-gram 수가 참조 텍스트의 n-gram과 일치하는지 고려하여 정밀도를 계산합니다. 그런 다음 짧은 번역을 선호하지 않도록 간결성 페널티를 적용하여 정밀도 점수를 수정합니다.

BLEU 점수는 번역 품질에 대한 인간의 판단과 밀접한 상관관계가 있는 것으로 알려져 있습니다.

BLEU 점수를 계산하는 공식에는 정밀도와 간결성 페널티가 포함됩니다. 다음은 공식의 단순화된 버전입니다.

어디

  • BP는 참조 텍스트와 비교하여 생성된 텍스트의 길이를 설명하기 위한 간결성 페널티입니다.

  • n은 고려되는 최대 n-그램 순서입니다(보통 4).

  • P_i는 생성된 텍스트와 참조 텍스트 사이의 i-gram의 정밀도입니다.

각 i-gram의 정밀도 p_i는 생성된 텍스트의 일치하는 i-gram 수를 생성된 텍스트의 총 i-gram 수로 나누어 계산됩니다. 이 정밀도 값은 모든 i-그램 순서에 대해 곱해진 다음 n의 역수(최대 n-그램 순서)로 거듭제곱됩니다.

간결성 페널티(BP)는 생성된 텍스트의 길이를 길이 측면에서 가장 가까운 참조 텍스트와 비교하여 더 짧은 번역에 페널티를 줍니다. 다음과 같이 계산됩니다.

어디

  • c는 생성된 텍스트의 길이입니다.

  • r은 가장 가까운 참조 텍스트의 길이입니다.

이 페널티는 지나치게 짧은 번역이 불균형적으로 높은 점수를 받는 것을 방지합니다.

이는 BLEU 점수 공식을 단순화한 설명이라는 점을 명심하세요. 실제 계산에는 다양한 상황에서 사용되는 BLEU의 특정 변형에 대한 추가 평활화 기술 또는 수정이 포함될 수 있습니다.

해석

BLEU 점수 범위는 0에서 1까지입니다. 여기서 1은 생성된 텍스트와 참조 텍스트가 완벽하게 일치함을 나타냅니다. BLEU 점수가 높을수록 일반적으로 번역 품질이 더 좋다는 것을 의미하지만, 의미론적 의미나 유창성을 고려하지 않는 등의 한계를 고려하는 것이 중요합니다.

BLEU 점수는 절대적인 척도가 아니며 구절, 언어 간 또는 참조 번역 수가 다른 동일한 언어에서도 BLEU 점수를 비교하는 것은 정확하지 않습니다(번역이 많을수록 후보 n-gram과 일치할 가능성이 높아짐).

그러나 다음 해석을 사용하면 대략적인 아이디어 번역 품질:

<테이블>

<머리>

블루 해석

<본체>

﹤0.1 거의 쓸모없음 0.1-0.19 요점을 파악하기 어려움 0.2-0.29 요지는 명확하지만 심각한 문법 오류가 있습니다 0.3-0.39 좋은 번역으로 이해 가능 0.4-0.49 고품질 번역 0.5-0.59 매우 높은 품질, 적절하고 유창한 번역 ≥0.6 인간보다 품질이 더 나은 경우가 많습니다

BLEU는 기계 번역 및 텍스트 생성을 평가하는 데 사용되는 여러 측정항목 중 하나일 뿐이며 모델 성능을 보다 포괄적으로 평가하기 위해 다른 평가 방법과 함께 사용되는 경우가 많습니다.


Career Services background pattern

취업 서비스

Contact Section background image

계속 연락하자

Code Labs Academy © 2024 판권 소유.