Aug 22, 2022
오늘날 전 세계 미디어 시장에서는 온라인 동영상 스트리밍 서비스를 일컫는 OTT(Over The Top) 시장이 급속하게 성장하고 있습니다. 요즘 여러분은 어떤 스트리밍 서비스로 영화를, 혹은 드라마를 즐겨 보시나요? 전 세계적으로 사랑받고 있는 한국 드라마 ‘이상한변호사우영우’를 시청하시나요? 혹은, 영국을 배경으로 하는 미국 드라마 ‘브리저튼’ 정주행에 뒤늦게 빠지셨나요? 영상 콘텐츠는 더 이상 최초로 만든 국가의 언어를 사용하는 시청자만의 것이 아닙니다. 영상 콘텐츠는 지역, 국가의 문화에 맞게 현지화(로컬라이제이션; Localization)* 과정을 거쳐 다양한 언어로 전 세계의 시청자와 만나게 됩니다. 즉, 지역적 문화나 언어의 특성에 맞춰 번역된 자막을 통해 우리는 제2, 제3의 언어로 만들어진 영상을 쉽게 접할 수 있다는 뜻이죠. 이제 영상을 보면서 자막을 켜는 일은 꽤 자연스러운 일이 되었습니다. 그렇다면 한 두 번의 클릭만으로 화면 아래쪽에 보여지는 자막이 어떻게 만들어지는지 알고 계신가요? 이 글에서는 여러분이 자주 접하는 영화, 드라마의 자막이 만들어지는 과정과 엑스엘에이트의 기술이 어떻게 도움이 되는지 살펴보려고 합니다.
* 로컬라이제이션(Localization) : 단순히 단어, 문장의 번역을 넘어 국가 별 문화와 언어의 특수성 및 맥락에 맞는 번역을 하는 것
자막을 만들기 위해 처음 해야 하는 작업은 영상을 텍스트(대사)로 변환하는 것입니다. 예를 들어 드라마 또는 영화가 영어로 제작되었다면 등장인물의 대사를 영어로 받아 적는 것으로 시작한다는 뜻입니다. 대사와 동일한 언어로 만들어진 자막을 우리는 ‘템플릿 자막(Template subtitle)’이라고 부릅니다. 템플릿 자막에 등장인물의 움직임, 대사를 제외한 다른 음성(소리), 설명문이 추가되기도 하는데, 이것은 폐쇄 자막(클로즈드 캡션; Closed Caption)’이라고 일컬어 집니다. 이러한 자막은 청각 장애인을 위해 설명을 추가한 형태입니다. 오늘 우리는 템플릿 자막에 대해 보다 깊게 알아보고자 합니다.
전통적으로 영상 현지화 프로세스는 사람이 영상을 보면서 대사를 직접 텍스트로 옮겨 적습니다. 이 후 옮겨진 텍스트에 타임 코드를 추가하는 방식으로 자막을 만들었습니다. 이 작업을 할 때 일반적으로 두 개의 팀이 협업을 하게 되는데요. 영상에서 나오는 대사를 텍스트로 옮기는 팀, 그리고 이 텍스트에 타임 코드를 맞추는 작업만 전문적으로 하는 팀입니다. 이 두 팀의 작업은 각각 많은 시간을 필요로 합니다. 특히, 영화나 드라마의 자막을 만들 때에는 고려해야 할 사항이 많아서 더 많은 시간을 필요로 합니다. 그 중에서도 특히 두 가지를 신경 써서 만들어야 합니다. 첫 번째는 한 줄에 몇 글자까지 넣을 수 있는 지를 고려해야 하는 데 이를 CPL (Character Per Line)이라고 합니다. 두 번째는 CPL보다 문장이 길어질 때 어느 지점에서 끊어서 다음 줄, 혹은 다음 자막으로 넘길지 결정해야 하는 것입니다.
* 타임코드(Time Code) : 비디오테이프나 오디오테이프에서, 프레임을 시간 단위로 표시하는 부호
만약 한 줄에 지나치게 많은 글자가 있다면 빠른 시간 내에 자막을 읽어야 해서 사람의 눈이 쉽게 피로가 온다는 연구 결과가 있습니다. 긴 자막을 나눌 때 아무 지점에서 바꾼다면 문맥을 제대로 전달 할 수 없는 상황이 발생할 수도 있지요. 이 두 가지 사항은 미디어 콘텐츠 자막을 만들 때 많은 시간이 소모되는 부분입니다. 영어 자막을 예로 들면, 보통 CPL 은 42자이며, 화면 별로 자막은 두 줄까지만 허용합니다. 그래서 영어를 기반으로 하는 영상 템플릿 자막을 만들 때 올바른 텍스트와 정확한 타임 코드, 이 두 가지 규칙을 제대로 적용해서 만드는 것이 중요합니다.
지금부터 자막을 만들 때 인공지능(AI) 기술이 어떻게 활용되는지 살펴보겠습니다. 예를 들어 엑스엘에이트(XL8)의 스크롤 싱크(Skroll Sync)는 Speech-To-Text (STT) 기술을 이용해 영상 콘텐츠에서 나오는 대사를 텍스트로 변환하고, 각각의 텍스트에 맞는 타임 코드를 자동으로 생성합니다. 스크롤 싱크는 인공지능(AI) 모델을 활용하여 CPL 규칙을 따르고 가장 적절한 줄 바꿈을 제공합니다. STT를 통해 타임 코드가 적용된 자막 데이터를 얻은 후, 스크롤 싱크는 이를 후 처리 AI 모델에 전달합니다. 사람이 CPL 및 줄 바꿈을 조정하기 위하여 사후 편집에 시간을 할애할 필요가 없으며, 최종적으로 얻게 되는 자막에 근접해 지게 됩니다.
템플릿 자막은 이제 다양한 언어로 번역하는 과정, 즉 트랜스크리에이션(Transcreation)을 하게 됩니다. Transcreation은 Translation(번역)과 Creation(창조)의 합성어로, 번역을 할 때 원래의 의도, 문맥, 감정을 제대로 살려서 전달한다는 의미에서 만들어진 단어입니다. 여러분이 시청했던 ‘오징어 게임’에서 ‘깐부’ 느낌을 영어 그대로 전달하려면 일반적인 번역으로는 힘들겠죠? 나아가 주요 수치나 단위도 번역 되는 언어를 사용하는 국가에 맞춰 변경하는 게 일반적인 번역 과정에 속합니다. 예를 들어, 영어 자막에서 거리로 많이 사용되는 마일(mile)은 한국어 자막에서는 킬로미터(km)으로 변환되는 것이 그 예입니다.
엑스엘에이트(XL8)의 스크롤 트랜슬레이션(Skroll Translation)은 한 편의 영상에서 추출한 템플릿 자막(텍스트)을 가져와 전체 자막을 하나의 문서로 파악합니다. 앞뒤 문장의 인과 관계, 맥락, 상황을 파악하여 문맥에 맞는 번역을 합니다. 또한, 각 언어 권에서 주로 사용하는 단위를 자동 변환해 주는 기능도 있습니다. 영어에서 한국어로 번역하면 마일로 계산된 단위는 모두 킬로미터로 자동 변환해 번역해 시간을 단축하는 등 사후 편집 시간을 혁신적으로 줄여줍니다.
엑스엘에이트의 스크롤 트랜슬레이션은 문맥을 매끄럽게 번역하고 단위를 자동으로 바꿔주는 것 외에도 미디어에 특화된 주요한 기능을 몇 가지 더 가지고 있습니다. 번역을 거친 자막에도 앞서 언급한 CPL 규칙이 필요합니다. 즉, 번역된 텍스트도 줄 당 글자 수 제한 규칙을 지켜야 한다는 뜻입니다. 또한 영상의 한 장면에서 여러 명이 동시에 말하는 경우가 있습니다. 여러 명이 동시에 말하는 내용을 자막에 표시하기 위해 멀티 스피커 구분자를 사용하는 경우도 있고요. 또한 다중 화자 대화, 줄임표 규칙 등 언어 별로 고유한 규칙이 있습니다. 넷플릭스의 Timed Text Guideline 을 보면 자막 하나에 지켜야 하는 어마어마한 규칙의 숫자에 놀랄 수도 있어요! 엑스엑에이트의 스크롤 트랜슬레이션은 미디어 콘텐츠에 최적화되어 이러한 모든 규칙을 지원하고 있습니다.
기계번역을 이용해 템플릿 자막을 번역하는 것, 그리고 여기에 번역가의 후보정이 첨가된 최종 편집본을 만들어내는 과정 일체를 우리는 MTPE(Machine Translation and Post Editing; 기계 번역 후 후 보정)라고 부릅니다. 다음은 엑스엘에이트가 개발한 AI기반의 미디어 번역 작업의 흐름도 입니다.
이 모든 과정의 전체 작업 시간은 엑스엘에이트의 기술로 개발된 AI 기반의 템플릿 자막 생성과 기계 번역을 통해 크게 단축됩니다. 기계가 일반적인 번역이나 단위를 바꿔주는 역할을 하면, 전문 번역가는 기계 번역 후의 텍스트를 보다 ‘창의적’인 방식으로 수정/보완합니다. 번역가는 더 이상 단순 번역, 혹은 단순한 단위 변환 같은 허드렛일에 시간을 사용할 필요가 없는 것이죠. 번역가는 AI가 할 수 있는 단순 반복적인 업무를 하는 것이 아니라 자신의 예술적 창조물을 만드는 과정에 더욱 많은 시간을 집중할 수 있도록 하는 것, 우리는 그것이 트랜스크리에이션(Transcreation)의 미래라고 믿습니다.
이 과정을 통해 우리는 화면에서 최종 자막을 만날 수 있습니다. 일상에서 접하는 영상 자막이 어떤 과정을 거쳐야 우리가 볼 수 있는지 함께 살펴보았습니다. 자막은 단순한 전사(transcription; 같은 언어로 옮겨 적기)나 번역(translation; 다른 언어로 옮겨 적기)이 아닙니다. 여러분이 선택한 언어로 원본 영상을 즐길 수 있게 해주는 일종의 예술 분야라고 할 수 있죠. 앞으로 영화나 드라마에서 자막을 볼 때 더욱 재미있게 감상할 수 있기를 바랍니다.