By 정영훈(Tim YoungHoon Jung), CEO at XL8 Inc.
July 25, 2022
2017년, 구글이 트랜스포머(Transformer)라는 딥러닝 모델을 발표한 이래로 기계 번역 분야에는 커다란 진전이 있었습니다. 발표 이후 트랜스포머 모델을 발전시키는 수많은 기여(번역 품질 향상, 더 쉽고 빠른 모델 트레이닝, 저자원 언어 쌍 지원 등)가 있었고, 그 중 번역 품질을 가장 높여준 기법이 문맥 인식(Context-Awareness 또는 “CA”)이라고 알려져 있습니다. 기계 번역의 품질을 믿지 못하는 수많은 사람들의 오래된 편견을 문맥 인식 기법이 깨버렸습니다. 물론 기계 번역을 적용하기 어려운 영역이 여전히 존재하지만, 이러한 번역 품질 향상 덕분에 콘텐츠 현지화 시장에는 기계 번역 사용이 급격하게 증가하고 있습니다. 이것을 ‘기계 번역 후 사람이 검토하면서 수정한다’는 의미로 MTPE(Machine Translation Post Editing)라고 부릅니다.
이 글에서는 문맥 인식이 무엇인지, 그리고 문맥 인식을 통해 그 동안 사람만 해결할 수 있다고 여겨진 몇 가지 문제를 컴퓨터가 어떻게 풀 수 있었는지 엑스엘에이트(XL8)의 사례와 함께 소개합니다.
문맥 인식이란?
“문맥”의 정의는 "사건, 진술 또는 아이디어의 배경을 형성하고, 그것이 완벽하게 이해되고 평가될 수 있는 상황적인 요소”입니다. 일반적인 트랜스포머 모델을 사용한 기계 번역은 문장을 한 번에 하나씩만 번역하므로, 단어 및 문장이 직접적으로 지칭하는 것 이외의 상황, 즉 문맥은 고려하지 않습니다. 반면, 문맥 인식 기법을 적용하면 기계 번역 시 대상 문장의 앞뒤 정보를 고려하여 번역할 수 있습니다. (예: 이전 문장 N개 및 다음 문장 M개)
일반적인 기계 번역
문맥 인식 기법이 적용된 기계 번역
문맥 인식 번역이 가져온 변화들
성별 인식
여러분은 프랑스어를 할 줄 아시나요? 아래의 문장이 잘 번역된 것으로 보이시나요?
어떤 사람들은 ‘앞뒤 문장을 파악하는 행위’는 인간만이 할 수 있는 영역이라고 생각해왔으나, 이제는 문맥 인식 모델도 인간처럼 번역할 수 있습니다. 많은 번역가들이 XL8의 번역 결과에 놀라움을 표시하는 이유도 XL8의 번역 엔진에 문맥 인식 기법이 적용되었기 때문입니다.
아래 두 문장을 살펴보겠습니다.
I like this flower. Put it in the bag.
두 번째 문장의 주어 “it”은 “꽃”을 의미합니다. 영어에서는 대명사 “it”은 그것이 가리키는 단어의 성별에 따라 달라지지 않습니다.
그러나 프랑스어에서는 사물의 성별에 따라 대명사가 바뀝니다. 프랑스어에서 “꽃"은 여성형 명사이므로, 이를 지칭하는 대명사 “it”도 제대로 번역했다면 남성형 대명사 “le” 대신 여성형 대명사 “la”가 되어야 합니다. 그럼 XL8의 문맥 인식을 고려한 번역 엔진은 어떻게 번역하는지 확인해볼까요?
와, 제대로 번역을 했습니다!
혹시 대명사 “it”을 항상 “la”로 항상 번역하는 건 아닐까요? 그렇다면, 이번에는 남성형 명사인 “빵"으로 시험해보겠습니다(프랑스어에서 “빵"은 남성형이고 “바게트"는 여성형이라는 게 재밌긴 하지만요).
XL8은 이번에도 성별을 정확히 번역해내는군요!!
중의적인 단어 구분
종종 하나의 단어가 여러 의미를 표현하는(중의적인) 경우가 있습니다. 그러나 이를 다른 언어로 번역할 때는 각 의미에 맞는 단어가 각각 따로 존재하기도 하죠.
영어에서 “Sheet”은 두 가지 의미를 가집니다. 첫번째는 “커다란 사각형의 면 조각”, 두번째는 “사각형 종이 조각"입니다. 이러한 중의적 단어를 기계 번역이 어떻게 처리하는지 영어 → 독일어 번역의 예를 들어 살펴보겠습니다.
“Blatt”은 독일어로 종이를 뜻하니, 번역이 완전히 틀린 셈이네요. 문맥 인식 모델이 이 문제를 해결할 수 있을까요?
독일어에서 “Laken”은 “넓은 천 조각”을 의미합니다. 역시 XL8의 문맥 인식 모델이 이번에도 제 역할을 훌륭히 해냈습니다.
한번 더 함께 검증해보시죠.
이번에는 앞 문장을 인식하여 “Sheet”를 천 조각이 아닌 종이를 뜻하는 “Blatt”으로 번역했습니다. 아주 똑똑한 엔진입니다.
문맥 인식 번역 모델을 가능하게 하는 두 가지 비밀
XL8는 문맥 인식 기법을 적용한 이후, 어떻게 이렇게 번역 품질이 뛰어날 수 있는지 자주 질문을 받아왔습니다. 사실 문맥 인식의 개념 자체는 새로운 것이 아닙니다. 전 세계의 훌륭한 연구자와 과학자(물론 XL8의 연구자를 포함하여) 덕분에 문맥 인식 번역을 이론적으로 가능하게 하는 인공지능 모델, 기술, 소스 코드는 충분히 존재합니다.
XL8의 비밀 소스는 두 가지입니다.
첫 번째는 데이터입니다. 저희는 지난 20년 동안 전문 번역가가 100% 직접 번역한 고품질 번역 데이터를 활용해 번역 엔진을 학습시킵니다. XL8의 데이터셋은 일반적으로 웹에서 크롤링해올 수 있는 데이터와는 다르게, 문장에서 "맥락"을 읽을 수 있도록 엔진을 학습시킬 수 있는 심층적인 대화를 포함합니다.
두 번째 비밀은 연구의 방향성입니다. 많은 빅테크 기업들은 웹에서 긁어온 저품질 데이터를 고품질로 바꾸기 위한 연금술에 많은 시간과 노력을 투자합니다. 저희는 이미 순금과 같은 데이터셋을 보유하고 있으므로, 이 데이터에 특화된 XL8만의 트레이닝 기법, 데이터 준비 기법, 추론 기법 등에 연구를 집중할 수 있습니다.
그리고 사실 세 번째도 있습니다. 지금까지 설명한 문맥 인식은 원본 문맥(Source-Context)에 대한 것이었고, 이는 절반에 불과하죠. 저희는 대상 문맥(Target-Context)을 활용하는 번역 기법에 대한 특허 출원도 마친 상태입니다. 이에 대해서는 다음 글에서 이야기를 이어나가 보겠습니다.
다음 이야기도 기대해 주세요!