가이드

MQM 프레임워크: 번역 품질 평가 완벽 가이드

다차원 품질 메트릭(MQM) 프레임워크의 평가 차원, 심각도, 점수 체계, ISO 17100 및 ASTM F2575와의 관계를 알아봅니다.

요약 — 핵심 내용

  • 1.MQM(Multidimensional Quality Metrics)은 DFKI와 QTLaunchPad가 개발한 번역 업계 최고 수준의 품질 평가 프레임워크입니다.
  • 2.정확성, 유창성, 용어, 스타일, 디자인, 로케일 관습, 진실성의 7가지 핵심 차원과 세부 오류 범주를 정의합니다.
  • 3.오류는 심각도별로 분류됩니다: 치명적(의미가 위험하게 왜곡), 주요(의미 손상), 경미(눈에 띄지만 무해).
  • 4.MQM 점수는 감점 기반 모델로, 100점에서 가중 오류 점수를 차감하여 최종 품질 점수를 산출합니다.
  • 5.leapCAT는 MQM을 품질 평가 프레임워크로 사용하며, 실제 번역물에서 평균 4.2+/5.0 점수를 달성하고 있습니다.

MQM이란?

다차원 품질 메트릭(MQM)은 유럽연합의 QTLaunchPad 및 QT21 연구 프로젝트를 통해 개발된 번역 품질 평가 프레임워크로, 독일 인공지능연구센터(DFKI)가 주도했습니다. 단일 점수 평가 방식과 달리 MQM은 정교하고 재현 가능한 품질 평가를 가능하게 하는 구조화된 오류 유형 분류 체계를 제공합니다.

기존의 품질 평가 방법인 LISA QA, SAE J2450, 자체 루브릭 등이 적용 범위가 지나치게 좁거나 적용이 일관되지 않다는 인식에서 MQM이 탄생했습니다. MQM은 이러한 접근법들을 하나의 확장 가능한 계층 구조로 통합하여, 프로젝트 간 비교 가능성을 유지하면서도 특정 용도에 맞게 커스터마이징할 수 있게 했습니다.

MQM의 핵심 원리는 간단합니다: 품질은 오류의 부재로 측정합니다. 평가자에게 주관적인 품질 점수를 매기도록 요구하는 대신, 번역문에서 구체적인 문제를 식별하고 분류하고 가중치를 부여하도록 합니다. 이 접근법은 평가자 간 불일치를 줄이고, 정확히 무엇을 수정해야 하는지 알 수 있어 점수의 실행 가능성을 높입니다.

이 프레임워크는 주요 언어 서비스 제공업체, 기술 기업, 표준 기관에서 채택하고 있습니다. TAUS Dynamic Quality Framework의 품질 메트릭 기반을 이루며, ISO 5060(번역 품질 평가) 개발에도 영향을 미쳤습니다.

MQM의 7가지 평가 차원

정확성(Accuracy)은 번역이 원문의 의미를 충실히 전달하는지 평가합니다. 하위 범주에는 오역, 누락, 추가, 미번역 텍스트가 있습니다. 정확성 오류는 가장 큰 영향을 미치는 경우가 많습니다. 투약 지시나 법적 조항의 오역은 심각한 현실적 결과를 초래할 수 있습니다.

유창성(Fluency)은 원문과 관계없이 번역이 목표 언어에서 자연스럽게 읽히는지 평가합니다. 문법 오류, 어색한 표현, 맞춤법 실수, 구두점 문제가 이 차원에 해당합니다. 번역이 완벽하게 정확하더라도 기계 번역처럼 읽힌다면 유창성 점수가 낮을 수 있습니다.

용어(Terminology)는 도메인 전문 용어의 정확하고 일관된 사용을 평가합니다. 개념에 잘못된 용어 사용, 문서 전체에서의 용어 불일치, 제공된 용어집 미준수 등이 오류에 해당합니다. 기술 및 의학 번역에서 용어 오류는 의미를 완전히 바꿀 수 있습니다.

스타일(Style)은 번역이 요구되는 격식, 톤, 문체 관습에 부합하는지 평가합니다. 캐주얼한 언어로 번역된 법적 계약서나 학술적 문체로 작성된 마케팅 브로슈어 모두 스타일 오류입니다. 이 차원은 프로젝트의 스코포스(목적)에 큰 영향을 받습니다.

디자인(Design)은 서식, 레이아웃, 마크업 문제를 다룹니다. UI 요소에서 잘린 문자열, 깨진 HTML 태그, 잘못된 숫자 형식, RTL 언어에서의 텍스트 방향 오류 등이 해당합니다. 의미에는 영향을 주지 않을 수 있지만 사용성에 큰 영향을 미칩니다.

로케일 관습(Locale Convention)은 문화적으로 고유한 적응을 다룹니다: 날짜/시간 형식, 측정 단위, 통화 기호, 주소 형식, 문화적으로 부적절한 콘텐츠 등입니다. 유럽 독자를 위해 마일을 킬로미터로 변환하지 않는 것이 로케일 관습 오류의 예입니다.

진실성(Verity)은 번역에 사실적으로 정확한 정보가 포함되어 있는지 확인합니다. 원문에 오류가 있는데 번역자가 이를 지적하지 않고 그대로 전파하거나, 번역자가 사실적 오류를 도입하면 이 차원에 해당합니다.

심각도 수준과 점수 체계

MQM은 3가지 심각도 수준으로 오류에 가중치를 부여합니다. 치명적 오류(일반적으로 건당 25 감점)는 피해, 법적 책임, 심각한 오해를 초래할 수 있는 문제입니다. 안전 경고 오역, 약물 투약량 오류, 번역으로 인해 도입된 불쾌한 내용이 그 예입니다. 치명적 오류 하나만으로도 전체 품질과 관계없이 불합격 점수가 됩니다.

주요 오류(일반적으로 5 감점)는 번역의 의미나 사용성을 손상시키지만 피해를 야기하지는 않습니다. 사용 설명서에서 누락된 문장, 일관되게 잘못된 기술 용어, 의미를 변경하는 문법 오류가 이 범주에 해당합니다. 주요 오류가 여러 개이면 상당한 수정이 필요한 번역임을 나타냅니다.

경미 오류(일반적으로 1 감점)는 눈에 띄지만 이해를 방해하지 않습니다. 대문자 사용 불일치, 사소한 스타일 편차, 어색하지만 이해 가능한 표현이 경미 오류에 해당합니다. 개별적으로는 미미하지만 경미 오류가 높은 밀도로 존재하면 전반적인 완성도가 떨어짐을 나타냅니다.

표준 점수 산출 공식: 점수 = 100 - (가중 감점 합계 / 단어 수 * 정규화 계수). 이 공식은 0~100 사이의 점수를 산출하며, 95점 이상이 일반적으로 전문 출판용 합격 품질로 간주됩니다. 정규화 계수는 텍스트 길이를 보정합니다. 주요 오류 하나가 있는 50단어 텍스트와 5,000단어 텍스트가 같은 점수를 받아서는 안 되기 때문입니다.

기관별로 품질 요구사항에 맞게 감점 가중치를 맞춤 설정할 수 있습니다. 제약 회사는 용어 오류에 50점(기본값의 2배)을 부과할 수 있고, 크리에이티브 마케팅 에이전시는 스타일 오류에 더 높은 가중치를 줄 수 있습니다. 이러한 유연성이 MQM의 가장 큰 장점 중 하나입니다.

MQM과 ISO 17100, ASTM F2575의 관계

ISO 17100은 번역 프로세스 자체에 대한 요구사항을 규정하는 프로세스 표준입니다 — 번역사 자격, 검수 단계, 프로젝트 관리 절차 등. 번역이 어떻게 수행되어야 하는지를 알려주지만, 결과물의 품질을 측정하는 방법은 정의하지 않습니다. ISO 17100 프로세스에 따라 생산된 번역도 여전히 오류를 포함할 수 있습니다.

ASTM F2575(번역 품질 보증 표준 가이드)는 품질 요구사항 수립 지침을 제공하여 프로세스와 제품 사이의 격차를 연결합니다. 프로젝트 시작 전에 품질 매개변수를 정의할 것을 권장하지만, 특정 오류 분류 체계나 점수 산출 방법은 규정하지 않습니다.

MQM은 제품 품질 측정의 공백을 채웁니다. ISO 17100과 ASTM F2575가 참조하지만 정의하지 않는 구체적인 오류 분류 체계, 심각도 가중치, 점수 산출 방법론을 제공합니다. 비유하자면: ISO 17100은 주방이 위생 규정을 준수하는지 확인하고, ASTM F2575는 메뉴가 품질 기준을 명시하는지 확인하며, MQM은 음식의 실제 맛을 측정합니다.

이 표준들은 상호 보완적이지 경쟁적이지 않습니다. 기업 번역 프로그램은 ISO 17100 인증 벤더를 요구하고(프로세스 보증), ASTM F2575에 따라 품질 기대치를 정의하고(요구사항 명세), MQM을 사용하여 결과물 품질을 측정할 수 있습니다(제품 검증). 이 계층적 접근법이 가장 견고한 품질 프레임워크를 제공합니다.

최근 중요한 발전으로 ISO 5060:2024(번역 및 통역 — 번역 결과물 평가)가 있습니다. MQM의 1차 수준 오류 유형과 공식적으로 조화를 이룹니다. ISO 5060은 인간 번역, 기계 번역, 포스트에디팅된 MT 결과물 평가를 다루며, 처음으로 MQM 호환 방법론을 ISO 표준 체계에 도입했습니다.

MQM의 한계와 과제

평가자 간 일치도는 MQM의 가장 큰 과제로 남아 있습니다. 연구에 따르면 훈련된 평가자들조차 오류 분류에서 20~40%의 불일치를 보이며, 특히 판단이 본질적으로 주관적인 유창성과 스타일 차원에서 그렇습니다. 두 명의 자격 있는 리뷰어가 동일한 오류에 다른 심각도를 부여하여 점수 차이가 발생할 수 있습니다.

MQM은 훈련된 평가자를 필요로 합니다. 프레임워크의 세밀함은 강점인 동시에 채택의 장벽이기도 합니다. 오류를 올바른 하위 범주로 분류하려면 분류 체계에 대한 숙지와 도메인 전문 지식이 필요합니다. 훈련되지 않은 평가자는 경미한 문제를 과도하게 지적하거나 미묘한 정확성 오류를 놓치는 경향이 있습니다.

도메인별 가중치 설정은 필수적이지만 표준화되어 있지 않습니다. 기본 감점 가중치가 모든 콘텐츠 유형의 실제 품질 우선순위를 반영하지 않을 수 있습니다. 의학 번역은 마케팅 번역보다 정확성 오류에 훨씬 더 높은 가중치를 부여해야 하지만, MQM은 도메인별 구성을 기본 제공하지 않습니다.

MQM은 번역 오류를 측정하지, 번역의 탁월함을 측정하지는 않습니다. 100점은 오류가 발견되지 않았다는 의미이지, 번역이 우아하거나 창의적이거나 최적으로 적응되었다는 의미가 아닙니다. 창작적 품질이 중요한 트랜스크리에이션, 문학 번역, 마케팅 카피에서는 MQM을 다른 평가 방법과 병행해야 합니다.

이러한 한계에도 불구하고 MQM은 번역 품질 평가를 위한 가장 엄격하고 널리 채택된 프레임워크입니다. 구조화된 접근법으로 품질을 측정 가능하고, 비교 가능하며, 개선 가능하게 만들어 전문 번역 평가의 업계 표준이 되었습니다.

실무에서의 MQM

MQM을 구현하는 조직은 일반적으로 콘텐츠에 관련된 차원과 오류 유형을 선택하는 것부터 시작합니다. 소프트웨어 현지화 팀은 정확성, 용어, 디자인(UI 관련 문제)에 집중할 수 있고, 출판사는 정확성, 유창성, 스타일을 강조할 수 있습니다.

표본 기반 평가가 가장 일반적인 접근 방식입니다. 번역의 모든 단어를 검토하는 대신 대표 표본(일반적으로 프로젝트당 2,000~3,000 단어)을 평가하고 품질 점수를 추정합니다. 전체 텍스트 평가는 더 정확하지만 대량 처리 시 비용 문제가 있습니다.

leapCAT에서는 MQM이 워크플로를 대신하지 않고, 워크플로 뒤에서 근거를 남기는 역할을 합니다. 팀은 브리프, 승인된 용어, 리뷰 우선순위, 최종 승인 이력을 한곳에 두고, MQM 결과로 무엇이 앞으로 갈 수 있고 무엇이 아직 사람 판단이 필요한지 확인합니다.

자주 묻는 질문

전문 번역, 전문가 비용 없이

43개 AI 에이전트가 분석, 용어, 번역, 검수, QA까지 전문 번역팀의 전체 워크플로를 단어당 $0.01부터 자동 수행합니다.

무료로 시작하기