가이드

번역 품질 메트릭 비교: BLEU, COMET, BERTScore, MQM

BLEU, COMET, BERTScore, MQM 번역 품질 메트릭을 심층 비교하고, 각각의 장단점과 상황별 사용 가이드를 제공합니다.

요약 — 핵심 내용

  • 1.BLEU는 번역과 참조 번역 간의 n-그램 겹침을 측정합니다 — 빠르고 저렴하지만 개별 세그먼트에서 인간 판단과의 상관관계가 낮습니다.
  • 2.COMET는 인간 품질 판단으로 훈련된 신경 모델을 사용하여 BLEU보다 훨씬 높은 인간 평가 상관관계를 달성합니다.
  • 3.BERTScore는 문맥적 임베딩을 활용하여 의미적 유사성을 비교하며, BLEU보다 의역을 잘 처리하지만 여전히 참조에 의존합니다.
  • 4.MQM은 특정 오류를 식별하는 인간 주석 프레임워크로, 품질 평가의 표준이지만 비용과 시간이 많이 듭니다.
  • 5.단일 메트릭으로는 번역 품질의 모든 측면을 포착할 수 없습니다. 개발에는 자동 메트릭(COMET)을, 최종 품질 검증에는 MQM을 사용하는 것이 최선입니다.

BLEU: 선구적 메트릭

BLEU(Bilingual Evaluation Understudy)는 2002년 Kishore Papineni 등이 도입한 MT 평가용 최초의 널리 채택된 자동 메트릭입니다. 후보 번역과 하나 이상의 참조 번역 사이의 n-그램(1~4 단어 시퀀스) 겹침을 측정하며, 너무 짧은 번역에 대한 간결성 페널티를 적용합니다.

BLEU의 강점: 빠르고, 결정적이며, 언어에 구애받지 않고, 참조 번역 외에 훈련 데이터가 필요 없습니다. 재현 가능합니다 — 같은 번역은 항상 같은 점수를 받아 시간에 따른 시스템 개선을 추적하는 데 유용합니다.

BLEU의 약점은 잘 문서화되어 있습니다. 표면적 어휘 겹침만 측정하므로 유효한 의역에 패널티를 주고 우연한 n-그램 일치에 보상합니다. 세그먼트 수준(개별 문장)에서 인간 판단과의 상관관계가 낮습니다. 치명적 오류와 사소한 변형을 구별하지 못합니다. BLEU 점수 30 대 35는 특정 번역의 상대적 품질에 대해 거의 아무것도 알려주지 않습니다.

한계에도 불구하고 BLEU는 기준 비교 메트릭으로 MT 연구에서 여전히 보편적입니다. 단순성과 오랜 역사 덕분에 시스템과 언어 쌍 전반의 발전을 추적하는 공통 분모가 됩니다.

COMET: 신경망 품질 추정

COMET(Crosslingual Optimized Metric for Evaluation of Translation)는 인간 품질 판단으로 파인 튜닝된 사전 훈련 다국어 언어 모델을 사용합니다. Unbabel에서 개발되었으며, 원문, 후보 번역, 참조 번역 세 가지 입력을 받아 BLEU보다 인간 평가와 훨씬 더 강한 상관관계를 가진 품질 점수를 생성합니다.

COMET의 핵심 장점은 표면적 단어 겹침이 아닌 의미적 유사성을 이해한다는 것입니다. 'The cat sat on the mat'과 'A feline was resting on the rug'는 BLEU에서는 낮은 점수를 받지만 COMET에서는 높은 점수를 받습니다. COMET의 신경 백본이 같은 의미를 전달한다는 것을 이해하기 때문입니다.

COMET는 여러 변형이 있습니다: COMET-DA(직접 평가 점수로 훈련), COMET-MQM(MQM 인간 주석으로 훈련), 참조 없는 COMET-QE(참조 번역 없이 품질 추정). COMET-MQM이 전문가 인간 평가와 가장 높은 상관관계를 보입니다.

한계: 효율적인 점수 산출에 GPU 연산이 필요하며, 동작이 불투명할 수 있고(신경 블랙박스), 훈련 분포에서 벗어난 언어 쌍이나 도메인에서는 성능이 좋지 않을 수 있습니다. 또한 특정 오류를 짚어내지 못합니다 — 무엇이 잘못되었는지 설명 없이 전체적인 품질 추정만 제공합니다.

BERTScore: 문맥 임베딩 유사성

BERTScore는 BERT 또는 유사한 트랜스포머 모델의 문맥 임베딩을 사용하여 후보 번역과 참조 번역 사이의 유사성을 계산합니다. BLEU처럼 정확한 단어를 매칭하는 대신 문맥에서의 의미를 기반으로 단어를 매칭한 다음 이 유사성 점수를 집계합니다.

BERTScore는 동의어와 의역을 BLEU보다 잘 처리하면서 COMET보다 해석 가능합니다. 정밀도, 재현율, F1 변형을 제공하여 오류가 누락(낮은 재현율)인지 추가(낮은 정밀도)인지에 대한 통찰을 줍니다.

그러나 BERTScore는 BLEU의 일부 한계를 공유합니다: 참조 번역이 필요하고, 원문을 고려하지 않으며, 특정 오류 유형을 식별하지 못합니다. 기반 BERT 모델의 훈련 데이터에 잘 표현된 언어에서 가장 잘 작동합니다.

실제로 BERTScore는 중간 지점을 차지합니다. 연구 평가에서는 BLEU보다 낫지만, 프로덕션 MT 품질 평가에서는 COMET에 점점 대체되고 있습니다. 주요 사용 사례는 다중 메트릭 평가 파이프라인에서의 추가 신호입니다.

MQM: 인간 평가의 표준

MQM은 여기서 논의된 다른 메트릭과 근본적으로 다릅니다: 자동 점수가 아닌 인간 주석 프레임워크입니다. 훈련된 평가자가 번역을 읽고, 오류를 식별하고, 유형과 심각도별로 분류한 다음 감점 기반 점수를 산출합니다. 이로 인해 MQM은 가장 정보가 풍부하고 실행 가능한 품질 측정 도구입니다.

MQM의 장점: 구체적이고 실행 가능한 오류 피드백 제공, 참조 번역 없이 평가 가능(원문만 비교), 자동 메트릭이 놓치는 품질 차원 포착(문화적 적절성, 격식, 실제 정확성), ISO 5060의 기반.

MQM의 단점: 비용이 높고(훈련된 인간 평가자 필요), 느리며(자동 메트릭의 수초 대비 평가당 수 시간), 평가자 간 변동이 있습니다. 이러한 이유로 MQM은 일반적으로 지속적 평가보다는 최종 품질 게이트와 정기 감사에 사용됩니다.

leapCAT에서 MQM은 전면 약속이 아니라 근거 레이어입니다. 핵심은 전체 워크플로를 다시 외부로 돌리지 않고도, 무엇이 바뀌었는지, 무엇이 아직 검토 대상인지, 왜 이 파일이 승인 단계로 갈 수 있는지를 팀이 스스로 볼 수 있게 하는 데 있습니다.

메트릭 비교 요약

속도: BLEU(밀리초) > BERTScore(초) > COMET(초) > MQM(시간). 비용: BLEU(무료) = BERTScore(무료) < COMET(GPU 비용) < MQM(인간 평가자 비용). 인간 판단과의 상관관계: MQM(표준) > COMET(높음) > BERTScore(중간) > BLEU(세그먼트 수준 낮음).

참조 필요 여부: BLEU(필수), BERTScore(필수), COMET(QE 변형으로 선택적), MQM(불필요). 실행 가능성: MQM(구체적 오류 피드백) > COMET(품질 추정) > BERTScore(정밀도/재현율 분석) > BLEU(단일 숫자).

권장 사용: BLEU는 과거 비교와 연구 기준선용. COMET는 개발 주기 평가와 시스템 비교용. BERTScore는 보충 신호용. MQM은 최종 품질 검증, 고객 납품, 품질 감사용. 종합적인 그림을 위해 여러 메트릭을 함께 사용하세요.

자주 묻는 질문

전문 번역, 전문가 비용 없이

43개 AI 에이전트가 분석, 용어, 번역, 검수, QA까지 전문 번역팀의 전체 워크플로를 단어당 $0.01부터 자동 수행합니다.

무료로 시작하기