정확한 평가를 위한 엑스엘에이트(XL8)만의 방법
Introduction
엑스엘에이트(XL8)은 미디어와 엔터테인먼트 컨텐츠에 특화된 기계 번역 서비스를 제공합니다. 이런 저희에게 기계 번역의 성능을 정확하게 평가하는 것은 매우 중요합니다. 하지만 번역의 질을 평가한다는 것은 그것이 전문 번역가의 번역이든 기계 번역이든 간단한 문제가 아닙니다. 일반적으로 한 문장에 대한 올바른 번역은 여러가지가 존재합니다. 하지만 번역 평가 과정에서는 이러한 번역들 중 하나 또는 극히 일부만 주어지는 경우가 대부분입니다. 같은 문장에 대한 가장 적절한 번역이 무엇인지는 전후 문맥에 따라 바뀔 수 있고, 심지어 평가자의 개인 선호에 의해서도 달라집니다. 번역 평가를 어렵게 하는 또다른 이유는 평가의 다면성입니다. 번역의 적절성(adequacy)과 유창성(fluency) 중에서 어느 것이 더 중요할까요? 유창하지만 조금 부정확한 번역과 정확하지만 부자연스러운 번역 중 어떤 것이 더 나은 번역일까요? 이런 번역의 다양한 평가 요소들을 어떻게 계량화하고 평가할 수 있을까요?
이러한 질문들에 대한 간단한 해답은 존재하지 않습니다. 기계 번역을 효율적이면서도 정확하게 평가하는 방법에 관한 연구는 기계번역의 성능을 올리는 연구 만큼이나 중요하고 많은 주목을 받고 있는 연구분야입니다. 또한 이러한 평가를 자동화하기 위한 연구에 많은 노력이 있었고, 현재 꾸준히 발전중임에도 불구하고, 아직 완벽한 자동 평가 방법은 존재하지 않습니다. 때문에 기계 번역 연구자들과 개발자들은 불완전한 평가 방법에 의존해야 할 때가 많고, 그 결과 번역 성능에 대한 잘못된 결론에 이르기도 합니다.
이 포스트는 기계번역 평가 방법의 다양한 범주들에 대해 소개하고, 각 범주의 대표적인 평가 방식들과 그것들의 장단점을 알아보고자 합니다. 또한 엑스엘에이트는 기계번역 개발 과정에서 어떻게 번역 엔진의 성능을 평가하는지에 대해서도 소개해 드리고자 합니다.
사람에 의한 평가 (Human evaluation)
기계 번역 품질을 가장 정확하게 평가할 수 있는 방법은 사람이 직접 번역 품질을 평가하는 것입니다. 뒤에서 소개드릴 자동 번역 평가법들도 사람의 평가 결과와 근접한 결과를 내는 것을 목표로 합니다. 사람에 의한 기계 번역 평가는 가용 자원과 평가 목표에 따라 다양한 방식의 방법론들이 제안되어왔습니다. 그 중 널리 알려진 몇 가지 방법들을 소개합니다.
1. 적절성(adequacy)과 유창성(fluency) 평가 [1]
기계 번역 시스템들의 순위를 매기기 위해 고안된 이 평가 방식은 평가자들에게 번역의 적절성과 유창성을 1점에서 5점 사이의 점수로 평가하도록 했습니다. 이 방식은 번역 품질의 절대적 기준을 정의하지는 않았는데, 이는 이 방식의 목표가 기계번역 시스템 간의 품질을 상대적으로 비교만 하면 되었기 때문입니다. 평가자들은 ‘적절성’과 ‘유창성'이 무엇인지에 대한 명확한 정의 없이 1에서 5 사이의 다섯 개의 숫자로 각 번역의 점수를 매겼고, 이는 결국 번역 점수에 일관성이 떨어지는 결과로 이어졌습니다. 이 평가 방식은 WMT (Conference on Machine Translation) 에서 최초로 수행한 기계번역 평가 대회에서 사용되었습니다 [2].
2. Ranking [3]
번역의 적절성과 유창성을 다섯 단계의 점수로 평가하는 방식에서 일관성있는 평가 기준을 만드는데 어려움을 겪은 WMT는 2007년도부터 문장이나 구문 요소(syntactic constituents) 의 번역에 순위를 매기는 방식으로 기계 번역 평가 방식을 변경했습니다. 보다 쉽고 일관된 번역 평가를 위해 제안된 이 방식은 한 문장 또는 구문 요소에 대해 최대 5개의 기계번역 결과를 제시하고 이 번역들을 최악에서 최고까지 순위를 매겨 기계 번역 시스템들의 성능을 상대로적으로 평가합니다. 이 방식은 2016년까지 WMT의 기계 번역 평가 방법으로 사용되었습니다 [4].
3. Direct Assessment (DA) [5]
DA는 5가지 등급 만을 이용하는 평가 방식에 따르는 평가 결과의 비일관성을 해결하기위해 제안된 방법입니다. 이 방식은 평가자가 드래그를 통해 번역마다 0에서 100 사이의 (소수점이 포함된) 점수를 주는 식으로 이루어집니다. 연속된 구간에서 자유롭게 점수를 선택해 평가하는 이러한 방식은 앞서 소개드린 방법들과 같은 임의의 개수로 나뉘어진 등급을 매기는 방식보다 번역 품질 평가에 더 적합한데, 이는 번역의 품질은 단계적이기보다 연속적이기 때문이며, 단계적 데이터보다 연속적 데이터가 통계적 기법을 적용해 유의미한 결과를 도출하는데 유리하기 때문입니다.
DA의 또다른 장점으로는 기계 번역 시스템들을 쌍으로 비교하면서 평가하지 않아도 된다는 것입니다. Neural Machine Translation 시대가 도래한 이후 비교해야 할 기계 번역 시스템의 숫자가 급격히 증가하게 되면서, 그룹 또는 쌍으로 번역 성능을 비교하는 방식은 너무나 많은 평가를 필요로하는 문제가 발생했습니다. DA의 도입은 이러한 문제 없이 많은 수의 기계번역 시스템을 효과적으로 평가할 수 있게 했습니다. DA로 번역의 적절성을 평가하는 방식은 2017년부터 지금까지 WMT의 공식 기계 번역 평가 방법으로 사용되고 있습니다 [6].
4. Multidimensional Quality Metrics (MQM) [8]
기계 번역 품질 측정을 위해 설계되었던 앞서 소개해드린 평가법들과는 달리 MQM은 본래 전문 번역가들의 번역 품질 측정을 위해 개발된 방법입니다. MQM은 번역 품질에 대한 세분화된 분석을 가능하게 하는 동시에 다양한 평가 요구에 유연하게 적응할 수 있는 번역 품질 측정법을 제공하는 것을 목표로 합니다. MQM에서 평가자는 계층 구조로 정의된 각 오류 범주(누락, 적절성, 문법 등)에 대해 번역을 평가해야 합니다. MQM은 또한 오류의 심각도(예: Major, Minor, Neutral)를 정의하고 이에 따라 오류에 가중치를 부여하여 각 번역 평가 단위(문장 또는 구문)에 숫자로 된 점수를 할당하도록 할 수 있습니다 [10].
MQM은 번역 품질 평가에 매우 효과적인 것으로 알려져 있으며 번역 업계에서 품질 보증을 위해 널리 채택되고 있습니다. 그러나 세분화된 분석 및 오류 표기로 인해 수행 속도가 매우 느리고 비용이 많이 들기 때문에 기계 번역 평가를 위한 방법으로는 거의 사용되지 않고 있습니다.
사람에 의한 평가는 번역 품질을 평가하는 최고의 방법이지만, 언제나 완벽한 평가 결과를 얻을 수 있는 것은 아닙니다. 비전문 번역가의 평가는 일부 자동 평가 방법들보다 결과가 부정확할 수 있다는 것이 밝혀졌고 [10], WMT 평가에서는 크라우드 작업자들에 의해 수행된 평가 결과들 중 정확도가 떨어지는 평가들을 선별해 제외시키는 과정이 필요했다고 밝히고 있습니다 [7]. 그럼에도 불구하고, 전문가가 수행하는 적절하게 설계된 평가는 의심의 여지 없이 기계 번역 시스템을 평가하는 가장 신뢰할 수 있는 방법이며, 평가 방법을 개선하기 위한 연구 노력도 여전히 활발히 진행되고 있습니다. 여기에는 설명 가능한 평가법 개발 [11], 평가 효율성 개선 [12] 및 평가의 불확실성 고려 [13]같은 새로운 아이디어들이 포함됩니다. 이러한 훌륭한 아이디어와 노력들로 인해 기계 번역 평가의 품질이 지속적으로 향상되고, 이는 향후 더욱 빠른 기계 번역의 품질 향상으로 이어지게 될 것입니다.
자동평가 (Automatic evaluation)
기계 번역 시스템의 성능 평가는 기계번역 개발 과정에서 일상과도 같은 일입니다. 번역 엔진 개발 중 개발 진행 확인을 위해서, 개발 완료 후 이전 엔진 또는 경쟁사 엔진과 비교하기 위해서, 엔진 배포 후에는 최신 데이터에 잘 동작하는지 주기적으로 확인하기 위해서 기계번역 시스템의 성능 평가가 이루어집니다. 이전 섹션에서 설명한 사람에 의한 평가가 기계 번역 성능 평가를 위한 가장 정확한 방법이지만, 기계 번역 개발 과정에서 자주 사용되기는 어렵습니다. 자주 수행하기에는 비용이 너무 비싸며, 평가에 소요되는 시간이 길어 빠른 피드백과 그에 따른 의사결정을 하기가 어렵기 때문입니다. 기계번역 평가를 위해 고안된 자동평가법들은 이러한 상황에서 현실적인 대안으로 사용되고 있습니다. 자동 기계번역 평가 방법 개발은 기계 번역 연구에서 가장 중요한 주제 중 하나이며, 최근 들어 많은 진전이 있었던 분야이기도 합니다. 이번 섹션에서는 기계 번역 자동 평가 방법들을 크게 두가지 범주로 나누고 각각의 대표적인 방법들에 대해 소개하려고 합니다.
문자열일치평가법 (String matching based metrics)
기계 번역 품질을 자동으로 평가하기 위한 가장 일반적인 아이디어는 문자열 (단어 또는 문자열) 수준에서 기계 번역을 사람의 번역과 비교하는 것입니다. 문장의 실제 의미를 고려하지 않고 두 문장의 표면적 유사성을 기준으로 하기 때문에 비의미 기반 평가법이라고도 합니다.
1. BLEU (bilingual evaluation understudy) [14]
BLEU는 이 범주에서 가장 널리 사용되고 잘 알려진 평가법입니다. 정확한 수식은 언뜻 보면 상당히 복잡해 보일 수 있지만 기본 아이디어는 간단합니다. 기계 번역과 참조로 하는 사람 번역에 대해 다양한 길이의 문자열 (n-gram)이 평균적으로 얼마나 일치하는지 계산하는 것입니다.
우선 각 기계번역 결과에서 참조 번역들 중 하나와 겹치는 n-gram 수를 계산합니다. 그런 다음 일치하는 n-gram의 숫자를 전체 문서에서 합산하고 문서의 전체 n-gram 수로 나눕니다. 이 "변형 n-gram 정밀도"를 1-gram (unigram)에서 N-gram (가장 일반적으로 4-gram)까지 계산하고 가중 기하 평균을 사용하여 단일 점수로 변환합니다. 마지막으로 참조 번역보다 짧은 기계번역에 페널티를 주는 "간결성 페널티"를 곱합니다. 이러한 계산을 거친 최종 점수는 0에서 1 사이의 숫자로 나타납니다.
BLEU는 많은 장점 덕분에 기계 번역 성능을 평가하는데 가장 많이 사용되는 평가법입니다. 코딩이 쉽고 계산이 매우 빠르며 사람의 평가와 어느 정도 상관관계가 좋습니다. BLEU의 또 다른 이점은 대부분의 기계 번역 성능이 BLEU를 사용하여 보고되기 때문에 내 엔진을 다른 엔진과 쉽게 비교할 수 있다는 것입니다. 그러나 문자열 일치 여부만을 보기 때문에 번역된 문장의 의미를 평가에 반영하지 않는다는 점은 한계점 중 하나입니다. 각 문장에 여러 참조 번역이 있다는 기본 가정도 충족하기 어려운 경우가 많습니다. 이는 참조 번역과 다른 단어나 어순을 사용하지만 의미적으로 동등한 번역 (예: 의역) 은 가혹한 불이익을 받을 수 있음을 뜻합니다. BLEU의 또 다른 문제는 번역 결과의 토큰화(tokenization)에 민감하다는 것입니다. 동일한 번역도 토큰화하는 방법에 따라 BLEU 점수가 달라질 수 있습니다 [15]. 최근 몇 년 동안 기계번역 품질이 지속적으로 향상됨에 따라 BLEU 점수를 높여도 실제 번역 품질 향상으로 이어지지 않는 경우들이 보고되고 있으며, 이에 따라 다른 자동평가법을 사용하는 것이 권장되고 있습니다 [16, 21].
2. TER (Translation Edit Rate) [17]
TER은 기계 번역 결과를 하나의 참조 번역과 완전히 동일하게 만드는데 필요한 수정 횟수를 참조 번역의 평균길이로 나눈 값으로 정의됩니다.
TER은 삽입(insertion), 삭제(deletion), 단어치환(substitution of single words), 문자열 이동(shifts of word sequences)의 4가지 종류의 수정을 사용하며, 각각의 수정은 동일한 가중치를 가집니다. 이 4가지 수정을 이용해 번역을 수정하는 최소 횟수를 계산하는 것은 매우 복잡하고 어렵기 때문에 일반적으로 근사치를 계산해 사용합니다.
TER의 장점 중 하나로는 결과 점수값이 해석 가능하다는 것입니다. TER 점수가 0.2 라는 것은 평균적으로 기계 번역 결과에 20%가 수정되어야 한다는 것을 의미합니다. 하지만 TER은 BLEU와 유사하게 의미적으로 동등하지만 표면적으로 참조 번역과 다른 번역에 대해 좋지 않은 점수를 준다는 단점이 있습니다. 이러한 점을 극복하기 위해, 평가자들이 기계 번역 결과가 올바른 번역이 되도록 직접 수정하여 그 수정 횟수를 점수로 하는 HTER (Human-targeted Translation Edit Rate)이 제안되었습니다 (하지만 HTER은 더 이상 자동 평가법은 아닙니다). 최근 연구에서 TER은 사람에 의한 평가와의 상관관계가 BLEU보다 약간 더 나은것으로 보고되었습니다 [16].
3. CHRF [18]
BLEU와 마찬가지로 CHRF도 기계 번역과 참조 번역 간 일치하는 n-gram을 기반으로 계산됩니다. BLEU와의 주요 차이점은 단어 수준 n-gram의 일치가 아닌 문자 수준 n-gram의 일치를 계산하고 이를 기반으로 F-score를 계산한다는 것입니다. CHRF는 BLEU보다 구현이 간단하고 토크나이저 같은 추가 도구를 필요로 하지 않으며, 언어의 문법이나 형식에 구애받지 않고 사용할 수 있다는 장점이 있습니다. BLEU보다 사람에 의한 평가와의 상관관계도 더 높은 것으로 보고되었습니다 [16].
잘 알려진 한계점에도 불구하고 문자열 일치 기반 평가법은 효율성과 일반성 때문에 여전히 기계 번역 평가에 가장 널리 사용되는 방법 중 하나입니다. 여기서 우리는 다음과 같은 질문을 떠올릴 수 있습니다. 자동평가법이 번역의 의미를 반영할 수 있을까요? 한단계 더 나아가 DA나 MQM과 같은 사람에 의한 평가를 자동화할 수는 없을까요?
기계 학습 기반 평가법 (Metrics using Machine Learning)
뛰어난 연구자들이 이러한 물음에 답하기 위해 연구해온 결과, 이러한 목표를 어느 정도 달성할 수 있는 새로운 자동 평가 방법들이 최근에 개발되었습니다. 기계 학습 기법을 이용하는 이러한 방법들 중 대표적인 두 가지를 여기서 소개합니다.
1. BERTScore [19]
자연어처리 분야에서 임베딩은 단어나 문장의 의미를 일련의 숫자로 표현하기 위해 널리 사용되는 기술입니다. 기계학습을 사용하여 텍스트 말뭉치에서 언어 모델을 학습시키는 것은 이러한 임베딩을 얻는 가장 일반적인 방법 중 하나입니다. BERT [20]는 텍스트 임베딩에 가장 널리 사용되는 언어 모델 중 하나입니다. 입력 문장의 각 단어 (또는 단어의 하위 토큰)에 대해 “문맥을 고려한" 임베딩을 구합니다. 즉, 어떤 단어에 대한 임베딩은 단어 자체뿐만 아니라 주변 단어들에 의해서 결정됩니다. BERTScore는 기계번역과 참조번역의 BERT 임베딩을 계산하고 기계번역과 참조번역의 임베딩 간 평균 유사성을 점수로 출력합니다.
BERTScore와 같이 임베딩을 사용하는 평가법을 임베딩 기반 평가법 이라고 부릅니다. BERT와 같은 컨텍스트화된 임베딩을 사용하는 평가법은 임베딩에 문장의 의미를 반영할 수 있기 때문에 기계번역 평가 시 참조번역과의 의미 유사성을 반영하는 점수를 계산할 수 있습니다. BERTScore는 문자열 일치 기반 평가법보다 사람에 의한 평가와 더 높은 상관관계를 보여주었습니다 [16, 19]. 그러나 DA및 MQM과 같은 많은 방법들이 의미적 유사성뿐만 아니라 번역 품질의 다양한 측면을 평가한다는 점을 고려할 때 임베딩 기반 평가법과 사람에 의한 평가간 상관관계는 제한적일 수 있습니다.
2. COMET [21]
기계 학습을 사용하는 또 다른 종류의 평가법으로 학습 기반 평가법이 있습니다. 이 평가법은 사람에 의한 평가 결과를 데이터로 활용해 기계 학습 모델에 학습시킴으로써 자동 번역 평가법의 궁극적 목표인 “사람에 의한 평가의 자동화”를 달성하기위해 개발되었습니다. COMET은 이 범주에서 가장 성공적인 평가법 중 하나입니다. COMET도 BERTScore와 유사하게 언어 모델을 사용하여 문장의 임베딩을 생성합니다. 그러나 거기서 더 나아가 사람에 의한 평가와 가까운 점수를 출력하는 것을 목표로 하는 레이어들을 임베딩 위에 추가했습니다. COMET의 저자들은 다양한 평가법(Ranking, DA, MQM)에서 수집한 점수를 학습 데이터로 활용해 추가한 레이어들을 사람의 평가와 비슷한 점수를 출력하도록 학습시키는 데 성공했습니다.
COMET의 눈에 띄는 특징 중 하나는 점수를 계산할 때 번역 대상 문장을 고려한다는 것입니다. 원 논문의 실험에 의하면, 번역 대상 문장을 포함했을 때 사람에 의한 평가와의 상관관계가 전반적으로 상승하는 것으로 확인되었습니다. 이것을 이용한 변형 모델인 COMET-QE는 번역 대상 문장과 기계 번역만으로 참조 번역 없이 기계 번역 평가(Reference-less MT evaluation)을 수행할 수 있습니다 [22].
학습 기반 평가법은 자동 기계 번역 평가 도구로서 점점 더 많이 채택되고 있으며, COMET은 여러 연구 결과에서 지금까지 개발된 기계 번역 자동 평가법들 중 가장 좋은 성능을 보이는 평가법들 중 하나로 확인되었습니다 [16, 23]. 그러나 도메인 및 테스트 데이터에 따라 사람에 의한 평가와 높은 상관관계를 보이지 못하는 경우도 있습니다 [23].
자동 기계 번역 평가법의 개발이 기계 번역의 급속한 발전에 크게 기여했다는 데는 의심의 여지가 없습니다. 그럼에도 불구하고 사람에 의한 평가와 완벽하게 일치하는 자동 평가법을 개발하는 것은 여전히 해결되지 않은 문제입니다. 대부분의 기계번역 개발자가 예산과 시간적 제약 안에서 개발을 진행해야함을 고려할 때, 기계번역 시스템을 안정적으로 평가하는 최상의 전략은 자동 평가와 사람에 의한 평가를 적절히 결합하는 데 있습니다. 또한, 중점적으로 평가하고자하는 번역 품질의 종류에 따라 그에 맞게 사람에 의한 평가 방법을 설계하는 것도 중요합니다. 다음 섹션에서는 엑스엘에이트가 기계 번역 시스템을 평가하는 방법을 소개하고, 저희의 평가 방식이 왜 로컬라이제이션 비즈니스를 위한 기계 번역 시스템의 성능을 측정하는 데 가장 적합한 평가인지를 설명합니다.
엑스엘에이트의 기계 번역 평가
엑스엘에이트는 70개 이상의 언어 쌍에 대해 기계 번역을 제공하고 있으며, 기존 엔진을 지속적으로 업데이트하고 새로운 언어 쌍을 위한 엔진을 추가하고 있습니다. 이러한 각 엔진에 대한 정확하고 해석 가능한 평가는 다음과 같은 두 가지 이유로 저희에게 매우 중요합니다.
- 새로 개발된 엔진이 제대로 작동하는지 확인.
- 고객에게 엑스엘에이트의 기계 번역 시스템의 성능을 직관적으로 보여주기.
이러한 점을 염두에 두고 저희는 아래 조건을 충족하는 사람에 의한 평가법을 디자인했습니다.
- 공개적으로 사용 가능한 데이터 세트를 평가 데이터에서 배제.
- 사람에 의한 평가는 전문 번역가를 통해 진행.
- 기계 번역의 정확도를 문장 수준에서 올바른 번역의 비율로 측정.
첫 번째 조건은 (의도적이든 비의도적이든) 불공정한 평가의 가능성을 완전히 차단하기 위한 것입니다. 일부 고객은 WMT 또는 IWSLT 데이터와 같이 잘 알려진 공개 데이터 세트의 평가 결과에 관심이 있습니다. 하지만, 평가가 모든 평가 대상에게 공정한 조건에서 이루어져야함은 자명합니다. 모든 공개 데이터 세트는 우리가 비교하는 외부 기계 번역 시스템을 위한 학습 데이터의 일부로 쓰일 수 있습니다. 따라서 이들 데이터를 평가 대상에서 제외하는 것은 평가 과정에서의 예상치 못한 불공정함을 피하기 위해 필수적입니다. 공개 데이터 세트의 또 다른 문제는 도메인의 불일치입니다. 예를 들어 미디어 콘텐츠와 구어체 텍스트용으로 특별히 설계된 엑스엘에이트의 기계 번역 엔진을 생물 의학 문서 번역에 평가하는 것은 별로 의미가 없습니다. 엑스엘에이트는 기계 번역 평가를 위한 테스트 데이터를 기계 번역 엔진 개발과 분리된 팀에서 독립적으로 수집하므로 공정한 평가를 보장할 수 있습니다.
두 번째 조건은 평가의 신뢰도를 최대한 높이기 위함입니다. 첫 번째 섹션에서 언급했듯이 비전문가가 수행한 번역 평가는 때때로 오류가 많고 일관성이 없습니다. 이를 방지하기 위해 엑스엘에이트는 사람에 의한 평가를 수행할 때마다 번역할 언어에 능통하면서 번역 결과 언어의 원어민인 전문 번역가를 섭외해 평가를 진행합니다.
마지막으로 세 번째 조건은 단순하면서도 엄격한 평가를 위한 엑스엘에이트만의 기준입니다. 각 문장에 대한 기계번역은 번역된 문장 전체가 올바른 경우에만 맞는 번역으로 간주되고 그렇지 않으면 틀린 번역으로 평가됩니다. 이 기준은 DA나 MQM보다 간단하므로 평가 프로세스가 더 빠르고 효율적입니다. 동시에 불완전한 번역에서 부분적인 점수를 얻는 것이 불가능하기 때문에 기계 번역 시스템 입장에서는 높은 점수를 얻기가 매우 어려운 평가 방식입니다. 최종 평가 결과는 문장 수준의 번역 정확도로 나타낼 수 있는데, 이는 매우 직관적으로 해석이 가능합니다. 예를 들어 80% 정확도는 번역된 문장 100개 중 80개가 정확함을 의미합니다. 또한 이 점수는 기계번역 시스템의 절대적 품질은 물론 상대적 품질 측정에도 사용할 수 있습니다.
엑스엘에이트는 다큐멘터리, 드라마, 공상 과학, 리얼리티, 코미디 및 K-Drama의 6개 장르에서 수집된 2,400개의 문장으로 주요 엔진 업데이트 또는 신규 언어 쌍 번역 엔진 출시 때마다 위의 평가법으로 평가를 수행합니다. 그리고 엔진 개발 과정 중 평가나 전문가 평가 수행 전 확인 절차를 위한 평가로는 BLEU, CHRF 및 COMET과 같은 다양한 자동 평가법을 사용합니다. 자동 평가와 전문가 평가의 하이브리드 접근 방식을 통해 시간과 예산을 최적화하는 동시에 정확하고 해석 가능한 평가 점수를 얻을 수 있습니다.
다양한 미디어 장르에서 측정한 문장 단위 정확도는 로컬라이제이션 영역에서 기계번역의 효과를 확인할 수 있는 유의미한 지표가 될 수 있습니다. 30개의 언어쌍에 대해 수행한 전문가 평가에서 엑스엘에이트의 기계번역 시스템은 대부분의 경쟁사를 큰 격차로 능가하며 20개 언어 쌍에 대해 70%보다 높은 정확도를 보여줍니다. 문맥 인식 기반 번역을 도입한 최신 엔진 업데이트에서는 30개 언어 쌍에서 최대 30%의 정확도 향상을 확인할 수 있었습니다.
Conclusion
엄밀하면서도 효율적인 방식으로 기계번역 시스템을 평가하는 것은 완벽한 기계번역 시스템을 개발하는 것만큼 어려운 일입니다. 이번 블로그 포스트에서는 기계번역 평가가 왜 어려운지, 대표적인 사람에 의한 평가와 자동 평가 방법 및 그것들의 장단점이 무엇인지 간략하게 살펴보았습니다. 또한 정확하고 쉽게 해석 가능한 평가 결과를 위해 설계된 엑스엘에이트의 기계번역 평가 방식에 대해 알아보았습니다. 엑스엘에이트에서 수행한 전문가 평가에서 대부분의 엑스엘에이트 MT 시스템들이 큰 격차로 경쟁 기계번역 시스템들보다 좋은 점수를 얻은 것도 확인해보았습니다.
이번 포스트는 여기서 끝이지만, 엑스엘에이트의 기계 번역은 이제 시작입니다. 기계 번역과 그 평가법이 지속적으로 발전함에 따라, 엑스엘에이트의 기계 번역 시스템과 평가 프로세스를 개선하기 위한 저희의 노력도 계속될 것입니다. 더 나은 번역 품질 향상과 함께 찾아올 엑스엘에이트의 기계 번역과 평가 프로세스에 대한 다음 업데이트도 기대해 주시기 바랍니다.
참조문헌
- White, J. S. and O’Connell, T. A. (1996). Adaptation of the DARPA machine translation evaluation paradigm to end-to-end systems. In Conference of the Association for Machine Translation in the Americas, Montreal, Canada.
- Koehn, P. and Monz, C. (2006). Manual and automatic evaluation of machine translation between Euro- pean languages. In Proceedings on the Workshop on Statistical Machine Translation, pages 102–121, New York City. Association for Computational Linguistics.
- David Vilar, Gregor Leusch, Hermann Ney, and Rafael E. Banchs. 2007. Human evaluation of machine translation through binary system comparisons. In Proceedings of the Second Workshop on Statistical Machine Translation, pages 96–103.
- Chris Callison-Burch, Philipp Koehn, Christof Monz, Josh Schroeder, and Cameron Shaw Fordyce. 2008. Proceedings of the Third Workshop on Statistical Machine Translation. In Proceedings of the Third Workshop on Statistical Machine Translation.
- Graham, Y., Baldwin, T., Moffat, A., and Zobel, J. (2013). Continuous measurement scales in human evaluation of machine translation. In Proceedings ofthe 7th Linguistic Annotation Workshop and Inter- operability with Discourse, pages 33–41, Sofia, Bulgaria. Association for Computational Linguistics.
- Ondrej Bojar, Rajen Chatterjee, Christian Federmann, Yvette Graham, Barry Haddow, Shujian Huang, Matthias Huck, Philipp Koehn, Qun Liu, Varvara Logacheva, Christof Monz, Matteo Negri, Matt Post, Raphael Rubino, Lucia Specia, andMarco Turchi. 2017. Findings of the 2017 Conference on Machine Translation (WMT17). In Second Conference on Machine Translation, pages 169–214. The Association for Computational Linguistics.
- Lo¨ıc Barrault, Magdalena Biesialska, Ondˇrej Bojar, Marta R. Costa-juss`a, Christian Federmann, Yvette Graham, Roman Grundkiewicz, Barry Haddow, Matthias Huck, Eric Joanis, Tom Kocmi, Philipp Koehn, Chi-kiu Lo, Nikola Ljubeˇsi´c, Christof Monz, Makoto Morishita, Masaaki Nagata, Toshiaki Nakazawa, Santanu Pal, Matt Post, and Marcos Zampieri. 2020. Findings of the 2020 Conference on Ma- chine Translation (WMT20). In Proceedings of the Fifth Conference on Machine Trans- lation, pages 1–55, Online, Association for Computational Linguistics.
- Arle Lommel, Hans Uszkoreit, and Aljoscha Burchardt. 2014. Multidimensional quality metrics (MQM): A framework for declar- ing and describing translation quality metrics. Tradum`atica, pages 455–463.
- Mariana, V., Cox, T., and Melby, A. (2015). The Multidimensional Quality Metrics (MQM) framework: a new framework for translation quality assessment. The Journal of Specialised Translation, pages 137–161.
- Freitag, M., Foster, G., Grangier, D., Ratnakar, V., Tan, Q., and Macherey, W. (2021). Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation. Transactions of the Association for Computational Linguistics, 9:1460–1474.
- Leiter, C., Lertvittayakumjorn, P., Fomicheva, M., Zhao, W., Gao, Y., & Eger, S. (2022). Towards Explainable Evaluation Metrics for Natural Language Generation. arXiv preprint arXiv:2203.11131.
- Zerva, C., Glushkova, T., Rei, R., & Martins, A. F. (2022). Better Uncertainty Quantification for Machine Translation Evaluation. arXiv preprint arXiv:2204.06546.
- Zerva, C., Glushkova, T., Rei, R., & Martins, A. F. (2022). Better Uncertainty Quantification for Machine Translation Evaluation. arXiv preprint arXiv:2204.06546.
- Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics (pp. 311-318).
- Post, M. (2018). A call for clarity in reporting BLEU scores. arXiv preprint arXiv:1804.08771.
- Kocmi, T., Federmann, C., Grundkiewicz, R., Junczys-Dowmunt, M., Matsushita, H., & Menezes, A. (2021). To ship or not to ship: An extensive evaluation of automatic metrics for machine translation. arXiv preprint arXiv:2107.10821.
- Snover, M., Dorr, B., Schwartz, R., Micciulla, L., & Makhoul, J. (2006). A study of translation edit rate with targeted human annotation. In Proceedings of the 7th Conference of the Association for Machine Translation in the Americas: Technical Papers (pp. 223-231).
- Popović, M. (2015, September). chrF: character n-gram F-score for automatic MT evaluation. In Proceedings of the Tenth Workshop on Statistical Machine Translation (pp. 392-395).
- Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., & Artzi, Y. (2019). Bertscore: Evaluating text generation with bert. arXiv preprint arXiv:1904.09675.
- Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
- Ricardo Rei, Craig Stewart, Ana C Farinha, and Alon Lavie. 2020. COMET: A Neural Framework for MT Evaluation. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Process- ing (EMNLP), pages 2685–2702, Online. Associa- tion for Computational Linguistics.
- Rei, R., Farinha, A. C., Zerva, C., van Stigt, D., Stewart, C., Ramos, P., ... & Lavie, A. (2021, November). Are references really needed? unbabel-IST 2021 submission for the metrics shared task. In Proceedings of the Sixth Conference on Machine Translation (pp. 1030-1040).
- Freitag, M., Rei, R., Mathur, N., Lo, C. K., Stewart, C., Foster, G., ... & Bojar, O. (2021, November). Results of the WMT21 metrics shared task: Evaluating metrics with expert-based human evaluations on TED and news domain. In Proceedings of the Sixth Conference on Machine Translation (pp. 733-774).
작성자. 김강, Head of Research