오늘은 엑스엘에이트(XL8)가 개발하고 있는 기계 번역(Machine Translation)과 기계 번역 시장의 규모에 대해 살펴보려고 합니다. 그 전에 기계 번역의 역사에 대해서 먼저 알아볼까요?
기계 번역의 역사는 컴퓨터의 역사와 비슷할 정도로 그 깊이가 깊습니다. 1954년 조지타운 대학교와 IBM은 공동 연구를 통하여 약 60개의 러시아어 문장을 영어로 자동 번역을 하는데 성공했습니다. 이 연구를 ‘조지타운-IBM 실험'이라 부르며, 역사 상 첫 번째 기계 번역 프로젝트 중 하나로 알려져 있죠. 그 당시 기술적 한계로 연구를 더 이상 진행하지는 못했지만, 컴퓨터를 사용하여 인간의 언어를 번역하겠다는 아이디어 자체는 이미 옛날부터 고안되어 왔다는 것을 알 수 있습니다.
이후 최근까지 컴퓨터 소프트웨어, 데이터, 하드웨어 기술 등은 비약적인 발전을 통해 인간 언어를 번역 하는데 필요한 복잡도를 처리할 수 있는 수준에 이르렀는데요. Global Market Insights의 연구에 따르면 기계 번역 시장은 2030년까지 약 75억 USD를 넘길 것으로 예측하고 있습니다. [1].
이쯤이면 ‘기계 번역이 뭐지? 그게 나랑 무슨 상관인데?’ 라고 궁금증을 가진 분도 계실 것 같아요. 이 질문에 대한 답을 드리기 위해 기계 번역 시장에 대한 전반적인 내용과 시장의 요구사항, 그리고 엑스엘에이트(XL8)가 이 시장을 어떻게 바꾸어 나가고 있는지 전해보겠습니다.
기계 번역이 뭐죠?
기계 번역이란 ‘콘텐츠를 한 언어에서 다른 언어로 인간의 개입 없이 자동으로 번역할 수 있는 프로세스’로 정의할 수 있습니다. 하지만 현대의 기계 번역은 단순히 글자를 번역하는 수준을 넘어, 원래 언어의 뜻을 정확히 전달하고자 입력 언어의 모든 요소들과 그 관계들을 정확히 분석해야 할 필요가 있죠.
어쩌면 독자분 중에는 지금 이런 생각을 하고 있는 분도 계실 거에요. ‘난 번역가도 아니고, 딱히 번역가가 될 계획도 없는데, 이게 나랑 무슨 상관이지?’라고 말이에요. 하지만 기계 번역은 단순한 번역을 넘어 우리의 생활과 밀접하게 연결된 다양한 유스 케이스(Use case)를 가지고 있습니다. 대표적인 예를 몇 개 확인해 볼께요.
- 고객 지원(Customer Support)
여러분의 회사에서 익숙하지 않은 언어를 사용하는 고객과 일을 하고 있다면, 기계 번역의 도움을 받을 수 있습니다. 기계 번역은 고객이 전달한 내용을 단순히 단어 대 단어로 번역하는 것을 넘어섭니다. 앞 뒤 문장을 종합하여 문맥을 이해하고 해당 내용을 정렬하거나 분류 (때로는 응답) 하는 것 또한 가능하게 합니다.
- 법률 문서 처리(Processing Legal Documents)
여러분 회사 내 법률팀도 기계 번역을 사용하여 법률 문서를 다양한 언어로 짧은 시간 안에 번역할 수 있습니다. 법률 전문 번역가를 별도로 고용할 필요가 없습니다. 전문가가 직접 번역할 때 걸리는 시간과 비교하여, 기계 번역을 활용하는 경우 훨씬 빠르게 다양한 언어로 분석하고 번역할 수 있습니다.
- 엔터테인먼트 및 미디어(Entertainment & Media)
넷플릭스(Netflix), 디즈니플러스(Disney+), 훌루(Hulu) 등과 같은 글로벌 OTT 플랫폼에 가입해 전 세계 다양한 콘텐츠를 즐기고 있는 분들이 많을텐데요. 이 플랫폼에서는 단순히 우리 나라에서 만든 콘텐츠를 넘어 전 세계에서 만들어지는 다양한 작품들을 자유롭게 볼 수 있죠. 기계 번역은 이 미디어 콘텐츠를 국가(혹은 지역)와 언어에 맞추는 로컬라이징 프로세스를 통해 최종 고객에게 자막, 더빙 등을 비롯한 다양한 포맷으로 원작의 감동을 전달하는데 도움을 주고 있습니다.
이 외에도 기계 번역은 다양한 응용 분야를 가지고 있는데요. 만약 여러분의 일상에서 다른 언어로 번역이 필요한 데이터가 누적되어 있다면, 기계 번역은 여러분의 일을 더욱 빠르고 편리하게 만들어 줄 것입니다.
기계 번역 시장 알아보기
우리는 누구든지 콘텐츠 제작자가 될 수 있는 시대에 살아가고 있습니다. 단 몇 번의 클릭만으로 유튜브에 손쉽게 영상을 올리기도 하고, 블로그에 내가 가진 지식을 글로 작성해 많은 사람들은 이를 보고 영감을 얻기도 하죠. 폭발적으로 늘어나는 콘텐츠의 양과 비례하여 지역과 언어를 넘어서는 콘텐츠의 확장은 기계 번역 시장을 황금기에 들어서게 했는데요. 많은 선도 기업들이 이 분야에서 함께 하고 있습니다.
- 구글 번역(Google Translate)
전 세계인이 가장 많이 쓰이는 기계 번역툴이자, 여러분도 한번쯤은 사용해 본 경험이 있는 기계 번역 툴입니다. 구글 번역은 가장 처음 나온 1세대 기계 번역 플랫폼이지만, 지금까지도 많은 사랑을 받고 있습니다. 하지만, 이 분야에서 가장 유명한 플랫폼임에도 불구하고, 한국어, 중국어와 같은 몇몇 아시아 언어에서는 정확도가 부족한 경우가 있습니다. 예를 하나 들어볼까요.
한글 문장에서 ‘백조’는 새의 한 종류를 뜻합니다. 하지만, 구글 번역은 백조를 '1조'로 번역하였습니다. 위의 문맥에서 올바른 번역은 'Once upon a time, there was a swan’ 또는 ‘Long ago, there lived a swan' 가 되어야겠습니다.
- 아마존 번역(Amazon Translate)
아마존 번역은 AWS 클라우드 플랫폼에서 작동됩니다. 영어-중국어를 비롯하여 몇몇 언어들에 있어서는 구글 번역보다 더 정확하다고 알려져 있지만 [2], 영어-러시아어, 영어-스페인어와 같은 몇몇 언어들에 있어서는 비교적 그 정확도가 낮다고 알려져 있습니다 [3].
- 딥엘(DeepL)
위의 두 플랫폼과 비교하면 DeepL은 많이 알려져 있는 플랫폼은 아닙니다. 하지만 DeepL의 기계 번역 엔진은 그들만의 뉴럴 AI를 통해 다른 기계 번역보다 훨씬 더 자연스러운 번역을 할 수 있다고 알려져 있습니다 [2]. 딥엘은 영어, 독일어, 프랑스어, 스페인어, 이태리어, 폴란드어 등에서 시작하여 최근에는 중국어 (간체)와 일본어 번역까지 제공하고 있습니다.
- 페이퍼컵(Papercup)
Papercup은 앞선 기업들과는 조금 다릅니다. Papercup은 기계 번역을 사용하여 자동으로 영상을 번역한 후, 인공지능으로 생성된 목소리를 그 영상에 더빙합니다. 이 뿐만 아니라, 자막 기능도 추가할 수 있습니다.
물론, 이 밖에도 다양한 기업들이 저마다 독특한 특징을 살려 기계 번역을 지속적으로 개발하고 시장을 넓히기 위해 노력하고 있습니다. 번역툴은 퀄리티와 생산성을 높이는데 큰 도움을 주지만, 단점이 없는 것은 아닙니다. 다음 파트에서는 이 부분을 조금 더 깊이 짚어보고, 엑스엘에이트는 이 문제들을 해결하기 위해 어떻게 접근하고 있는지 알아보도록 할께요.
번역 시장이 원하는 기술, 이를 위한 우리만의 문제 해결 방식
이쯤이면 여러분도 기계 번역은 구글, 아마존 등과 같은 대기업부터 처음 들어본 스타트업까지 다양한 기업들이 시장의 플레이어로 함께한다는 사실을 알게 되셨을 거에요. 많은 기업들이 기계 번역 분야에 뛰어들고, 콘텐츠의 번역 수요가 급증하는 상황에서 번역에 대한 정확도와 그 밖의 요구 사항들도 증가하기 시작했습니다. 지속적으로 기술이 발전하고 있음에도 불구하고 아직 해결하지 못한 요구 사항들이 많이 남아 있습니다.
- 번역 정확도(Translation Accuracy)
정확하게 ‘글자 그대로' 번역하는 것은 현재 기계 번역 기술을 개발하고 있는 기업에게는 큰 도전 과제도 아닙니다. 다시 말하면, 지금의 번역 기술 수준으로는 단어나 단일한 문장을 글자 그대로 번역하는 것이 어려운 일이 아니라는 뜻입니다. 기계 번역 분야 기업이 직면한 가장 큰 도전 과제는 원래의 글에 담긴 문화적 배경이나 글에 담겨진 맥락을 이해하고 기계 번역을 가능하게 하는 것입니다.
위의 백조 예에서 볼 수 있듯이, 정확한 번역을 하기 위해서는 기계 번역 엔진이 글의 문맥을 이해해야 할 필요가 있습니다. 기계 번역 AI가 실시간으로 데이터의 문맥을 추출해 번역을 해야 글의 정확한 의미를 전달하는 게 가능해집니다.
엑스엘에이트의 번역 기술은 ‘문맥 인식 모델(Context Awareness)’이라는 기술을 사용해 구어체 문장들을 더욱 정확하게 번역합니다. 이 기술을 사용한 기계 번역 엔진은 원래 글의 문맥 및 배경 상황을 더 깊이 이해할 수 있고, 현지에서 사용하는 실제 언어를 기반으로 보다 생생하게 번역할 수 있습니다. 그렇기 때문에 ‘글자 그대로' 번역을 하는 게 아닌, 실제 그 언어를 사용하는 사람들에게 최적화된 ‘로컬라이징'이 가능해집니다.
XL8 번역 기술이 독특한 또 다른 이유는 특정 언어의 형식성을 응용할 수 있다는 점입니다. 만약 여러 사람이 포함되어 있는 장면을 번역한다고 했을 때, 모든 사람들이 같은 형식으로 대화할 가능성은 정말 낮습니다. 우리나라 같은 경우, 누구는 존댓말을 쓸 수 있고 누구는 반말을, 또 누구는 독특한 말투를 쓸 수도 있습니다. 유저들로 하여금 이 장면의 상황을 정확히 이해하도록 만들기 위해서, AI로 하여금 인물들의 관계를 파악하고 서로 다른 대화 형식을 인식 및 응용을 하는 것 또한 정확도의 측면에서 굉장히 중요합니다.
- 모든 로컬라이징을 지배하는 플랫폼 ‘미디어캣(MediaCAT)’
앞의 예시에서 살펴봤듯 많은 회사들은 번역이라는 영역에서 단 하나의 측면에 집중하는 경향이 있습니다. 구글 번역과 아마존 번역은 텍스트 번역에 집중하고 있고, Papercup은 번역된 목소리를 제공하는데 집중을 하고 있고요. 하지만 현실에서는 이 모든 기능들이 한번에 사용자에게 제공되어야 합니다. 이것은 홈엔터테인먼트 분야의 미디어 콘텐츠를 번역하는데 있어서는 더더욱 중요한 것이죠.
예를 들어, 넷플릭스에서 해외 콘텐츠를 관람을 하는 경우, 다양한 언어로 번역된 자막을 볼 수도 있고, 다양한 언어로 더빙이 된 영상을 볼 수도 있습니다. 만약 회사들이 자막을 생성하기 위해 하나의 플랫폼을 사용하고, 더빙을 위해서 또 다른 플랫폼을 사용하고, 그리고 이 플랫폼들을 연결하기 위해 통합 작업까지 해야한다면, 과정 자체에 노력과 시간, 그리고 엄청난 비용이 들겠죠.
엑스엘에이트는 이런 측면에서 독특한 사용자 경험을 지향합니다. 엑스엘에이트는 로컬라이징 프로세스 전반에 걸쳐 필요한 서비스를 모두 지원하기 때문이죠. 즉, 엑스엘이이트의 플랫폼 미디어캣(MediaCAT)은 영상 파일에 맞춰 자막 파일을 동기화 시키는 서비스(Sync)에서 시작하여, 그 동기화된 자막 파일을 다양한 언어들로 번역(Translation)이 가능하며, 그 번역된 자막 파일로 영상 미디어를 더빙(Dubbing)할 수 있습니다. 엑스엘에이트 플랫폼은 이 모든 과정을 단 한번의 플로우로 가능하게 합니다. 즉, 로컬라이징 프로세스를 더욱 간단하게 만들어 사람의 노력과 시간을 현저하게 줄입니다. 뿐만 아니라, 구글 번역처럼 (하지만 더 정확하게) 텍스트를 번역할 수도 있고, 온라인 스트리밍 서비스에 대한 자막도 만들 수 있습니다. 스트리밍 플랫폼에 업로드한 영상의 URL만 입력 해주면, 즉시 자막 생성 및 번역이 가능합니다.
- 다양한 언어 번역 서포트
최근 Demandsage의 연구에 따르면, Netflix는 약 7,400만명의 미국, 캐나다 고객을 보유하고 있는 반면, 약 3,300만명의 아시아 고객을 보유하고 있다고 합니다 [4]. 전통적으로 미국 헐리우드에서 만들어진 콘텐츠는 아시아인에게 큰 인기를 끌어왔습니다. 하지만 최근에는 아시아 국가에서 만들어진 콘텐츠가 북미 뿐만 아니라 전 세계에서 거대한 돌풍을 일으키는 것을 볼 수 있는데요. 그렇게 때문에 이제는 콘텐츠를 번역할 때 ‘타겟 유저'라는 의미가 점점 희미해지고 있습니다. 누가 이 콘텐츠를 보고 즐길지 이제는 아무도 알 수 없기 때문이죠. 그 대신 최대한 다양한 언어로 번역을 하는것이 필요합니다. 이러한 이유 때문에 엑스엘에이트는 다양한 지역과 국가들에 걸친 번역 서비스를 제공하는데 큰 초점을 두고 있습니다. 현재 60여개가 넘는 언어쌍과 함께 20개 이상의 소스 언어(사투리 등)를 지원하고 있습니다.
영어나 스페인어와 같이 전 세계에 걸쳐 널리 쓰이는 언어를 번역하는 데에는 단순히 번역만 제공하는 것으로는 끝이 아닙니다. 콘텐츠의 진정한 의미까지 ‘즐기기' 위해서는, 이 콘텐츠를 만든 국가에 최적화된 언어의 변형을 번역 플랫폼이 이해하고 번역할 필요가 있습니다. 예를 들어, ‘나르코스'는 콜롬비아의 마약왕이었던 파블로 에스코바르의 일대기를 다룬 미국의 넷플릭스 드라마입니다. 그래서 이 드라마는 콜롬비아를 배경으로 하고 있고 거의 모든 캐릭터들은 콜롬비아에서 쓰이는 특정한 스페인어를 사용하죠. 물론 스페인어를 할 줄 안다면 이 드라마를 ‘이해' 할 수는 있습니다. 하지만 과연 캐릭터들이 그 지역에 특화된 속어, 사투리, 유머, 등을 사용할 때 이 드라마를 보면서 ‘즐길' 수 있을까요? 아마 아닐겁니다.
그래서 엑스엘에이트는 널리 쓰이는 언어들 뿐만 아니라 그 변형에 특화된 번역 또한 제공합니다. 특화된 번역의 예로는 라틴 아메리카 스페인어, 브라질 포르투갈어, 타이완 중국어 등이며, 여기서 더 최적화된 서비스를 제공하고자 콜롬비아 스페인어, 아르헨티나 스페인어 등으로 번역 서비스를 확장할 계획을 하고 있습니다. 이런 최적화된 서비스를 통해 콘텐츠의 언어를 모르는 사용자 뿐만 아니라 언어는 알지만 문화적 배경이 다른 사용자들도 그 콘텐츠를 ‘온전히’ 즐길 수 있도록 도와 주고자 합니다.
이제는 엑스엘에이트(XL8)의 플랫폼 ‘MediaCAT’ 하나만으로 당신의 콘텐츠를 정확하게, 그리고 다양한 방식으로, 전 세계의 유저들과 공유할 수 있습니다! 지금 바로 만나보세요.
Reference
[1] Preeti Wadhwani, Saloni Gankar (June 2022), “Machine Translation Market size worth $7.5 Bn by 2030”, Global Market Insights
[2] SmartCat (May 2022), “What is machine translation and how does it work?”, SmartCat
[3] Philip Kiely (Sep 2019), “Amazon versus Google Translate”, Wonderproxy
[4] Daniel Ruby (Jul 2022), “Netflix Subscribers 2022 — How Many Subscribers Does Netflix Have” Demandsage
작성자. 전상수, Product Manager