번역의 진화

2023년 11월 14일 7분
Adaptable mt language weaver rws

지속적인 혁신

올해 초 저는 번역 산업에 형성된 세 가지 기술 혁신의 물결에 관한 기사를 썼습니다. 이 세 가지 물결은 어쩌면 당연하게도 번역 메모리(TM), 번역 관리 시스템(TMS) 및 인공신경망 기반 기계 번역(NMT)이었습니다. 각각의 이러한 기술은 번역 프로세스에 새로운 효율성을 도입했습니다. TM은 반복적인 텍스트 번역에 소요되는 시간과 노력을 줄이고, TMS를 통해 번역 자산의 중앙 집중화와 워크플로우 최적화가 가능해졌으며, NMT는 신규 콘텐츠를 처음부터 번역할 필요가 없도록 최초 초안 번역을 제공했습니다.
 
이 세 가지 혁신에서 가장 흥미로운 측면 중 하나는 혁신이 상호 연관되는 방식입니다. 번역 메모리 기술을 통해 번역가가 매우 효율적으로 작업할 수 있게 되었고 승인된 번역의 데이터베이스를 매우 중요하게 만들었으며 번역가에 대한 작업 할당을 완벽하게 조정하고 데이터베이스의 활용을 최적화하기 위해 새로운 솔루션 범주를 도입해야 했습니다. 그리고 TM이 TMS를 위한 공간을 만드는 동안 TMS는 여러 팀, 벤더 및 콘텐츠 유형에 걸쳐 활용 수준을 강화함으로써 TM을 개선했습니다. 마찬가지로, 기계 번역은 이제 직접 레버리지뿐 아니라 적응형 MT 모델을 위한 고품질 교육 입력의 소스로도 활용할 수 있기 때문에 TM을 더욱 가치 있게 만들었습니다.
 
하지만 1월에 제가 이미 기사를 작성할 당시에도 또 다른 기술 혁신의 물결이 다가오고 있다는 것은 예측하고 있었습니다. 대규모 언어 모델이라고 하는 새로운 유형의 자연어 처리 엔진이 NLP 연구원이나 엔지니어 같은 전문가들에게만 국한되지 않고 다양한 글로벌 사용자 커뮤니티에 처음 소개되었습니다. 2022년 11월에 OpenAI가 출시한 ChatGPT는 또 다른 기술 혁신이었습니다. ChatGPT는 GPT 대규모 언어 모델을 단순하고 직관적인 인터페이스로 만들어 자연스럽게 대화하는 개념에 맞게 제작되었기 때문에 누구나 읽고 쓸 수 있습니다. 그 결과 Google Bard, Anthropic Claude, TII Falcon, 메타(Meta)의 LLAMA 등과 같은 다양한 LLM이 빠르게 확산되고 있습니다.  
 
현재 우리는 AI 혁명의 가속화를 경험하고 있습니다. 이는 주로 대규모 언어 모델의 새로운 기능에 의해 주도되고 외견상 보편적인 적용으로 이어지며 불가피하지만 다소 과대한 선전과 함께 발생합니다. 정확한 데이터는 없지만 현재 ChatGPT의 사용자 기반은 모든 산업 및 기업 부문에 걸쳐 2억 명 이상인 것으로 추정해도 무방할 것 같습니다. 그 외에, Google Bard 또는 Bing Chat과 같은 경쟁 플랫폼 사용자와 오픈 소스 LLM 사용자도 있습니다.
 
실험이라고 말할 수도 있는 이러한 정도의 채택 규모를 볼 때 모든 종류의 아이디어, 사용 사례, 희망 및 우려 사항이 논의되는 것은 당연합니다. 생각할 수 있는 거의 모든 업계에서 AI에 대한 옹호와 반대 의견이 모두 있으며, “LLM은 현대 지식의 신탁이다”라는 의견부터 “LLM은 설득력 있는 잡음을 만들어 내지만 아무것도 이해할 수 없는 확률론적 앵무새일 뿐이다”라는 의견까지 다소 극단적인 견해도 있습니다. 이러한 논의가 흥미로울 수도 있지만 일단 조율해보면 문제는 특정 산업 및 사용 사례에 명시된 요구 사항을 충족하는 실용적인 실제 적용이라고 할 수 있습니다. 이렇게 펼쳐지는 AI 혁명을 어떻게 활용하면 현재 솔루션을 진화시켜 보다 나은 결과를 얻을 수 있을까요?
 

의도하지 않은 결과

번역 업계에서 LLM을 사용한 초기 실험은 도메인별 콘텐츠 생성부터 용어집 관리, 성별 편향 수정, TM 데이터 정리, 등록 또는 스타일 조정, 그리고 번역에 이르기까지 광범위한 사용 사례를 포괄적으로 다루고 있습니다.  일부 실험자에게는 마지막 아이디어가 가장 매력적입니다. 무엇보다도 대규모 언어 모델은 특별히 제작된 MT 모델보다 훨씬 크기 때문에 더 나은 성능을 발휘해야 합니다. 이런 종류의 자유로운 사고는 좋은 것입니다. 그러나 거칠게 말해 죄송하지만 만일 우리가 실제적인 변화로 바꾸어 놓을 수 없다면 유용하지 않을 것이고, 예측하지 못한 결과는 종종 재앙을 일으킬 수 있습니다. 저는 고객이 대규모 언어 모델의 일반적인 지식과 광범위한 컨텍스트 창을 활용하여 인간의 개입 없이 보다 관련성이 높고 일관된 번역을 달성하고자 전용 인공신경망 기계 번역 시스템을 대규모 언어 모델로 교체하려고 했던 초기 사례를 떠올려 봤습니다. 고객이 진행한 실험 중 일부를 우리와 공유했으며 자세히 조사한 결과 모델이 소스 텍스트를 정확하게 반영하지 않더라도 가장 수용 가능할 것으로 예상되는 번역된 텍스트를 생성하는 사이코팬틱 번역의 사례를 발견했습니다. 그러한 예 중 하나에서 소스 세그먼트에는 고객의 브랜드에 속한 제품에 대한 참조를 포함하고 있었습니다. LLM은 이 제품 이름을 어떻게 타겟 언어로 번역해야 할지 몰라서 다른 전략을 선택했습니다. 제품 카테고리를 정확하게 식별하고 모델이 대상 언어의 이름을 알고 있는 다른 제조업체의 유사한 제품을 선택한 다음 번역된 문장에 삽입했습니다. 따라서 모델의 일반적인 지식과 넓은 컨텍스트 창이 번역 생성에 중요한 역할을 했더라도 결과는 고객이 기대하거나 바라던 것과 정확히 일치하지 않았습니다. 이러한 경험은 제가 초등학교 시절에 읽었던 스타니스와프 렘의 단편 소설을 떠올리게 했습니다. 스타니스와프 렘의 '사이버리아드' 컬렉션에 나오는 이 이야기에서 엔지니어인 트룰은 문자 N으로 시작하는 모든 것을 만들 수 있는 로봇을 만듭니다. 그리고 친구인 클라파우치우스가 기계에 아무것도 만들지 말라고 요청할 때까지 모든 것이 잘 진행되었으며, 이로 인해 상황은 매우 빠르게 종말론적인 결과로 가속됩니다. 
 
여기에서 얻을 수 있는 교훈은 두 가지라고 생각합니다. 하나는 사용 사례를 주의 깊게 생각해 보라는 것입니다. LLM과 같은 새로운 기술이 최선인지 이해하고 전체 프로세스를 약화시키지 않으면서 결과를 개선할 수 있는 곳에 적용해야 합니다. 현재 해결 중인 과제를 이해하고 기존 솔루션이 기대에 미치지 못하는 현재의 한계를 파악해야 합니다. 둘째로 기존의 워크플로우, 프로세스 또는 플랫폼에 혁신을 도입하려는 경우 나머지 솔루션에 대해 동일한 수준의 거버넌스를 유지해야 합니다. LLM의 경우에는 초기에 이것이 두 과제 중 더 큰 문제였습니다. 엔터프라이즈급 번역 솔루션에는 다른 사람의 API를 자신의 애플리케이션으로 묶는 경우, 특히 솔루션의 핵심이 관리할 수 없는 모델인 경우 달성하기가 어려운 수준의 보안, 제어력, 안정성 및 사용자 지정의 수준이 필요합니다. 그리고 솔루션에 의해 처리될 것으로 예상되는 데이터가 자신의 데이터가 아니라 가장 소중한 고객이 위임한 데이터인 경우에는 위험성이 매우 큽니다.
 

현재의 한계

번역 업계에서는 기성 솔루션이 아직 개선점을 제공할 수 없는 현재의 한계는 인적 개입이 지속적으로 대규모로 요구되고 있습니다. 지난 수십 년 동안 이 분야에서는 처음에 제가 말씀드린 것처럼 엄청난 진전이 있었습니다. 그러나 이제 전문 링귀스트의 역할이 크게 달라져 그들의 업무는 포스트에디팅 및 기계 번역 리뷰를 중점으로 하고 있습니다. 따라서 업계의 주도적인 사람들은 번역가의 역할에서 언어 전문가의 역할로 기능적으로 전환되도록 요구합니다.
 
기계 번역의 발전이 특정 도메인, 콘텐츠 유형 및 사용 사례에 더욱 맞춤화됨에 따라 점점 두 가지 핵심 작업으로 초점이 이동하고 있습니다. 첫째, 번역의 어느 부분에 개선이 필요한지 파악합니다. 둘째, 이러한 인사이트를 활용하여 해당 영역에 노력을 집중함으로써 원하는 개선을 달성합니다. 이러한 관찰 결과에 공감할 경우, 긴급한 과제는 이 두 가지 작업을 더 자동화된 프로세스로 어떻게 발전시킬 수 있는가? 현재 한계를 넘어설 수 있도록 번역을 발전시킬 수 있는 기술 솔루션을 어떻게 구축할 수 있을 것인가?가 됩니다.
 

이볼브 소개

RWS가 자문한 질문은 - 과거와 현재의 최고의 혁신을 통합하여 포스트에디팅 프로세스를 자동화하고 업계에 새로운 혁신의 물결을 가져오는 시스템을 구축하려면 어떻게 해야 할까요? 대규모 언어 모델의 등장과 일반적인 언어 모델에 대한 연구가 답을 얻는 데 도움이 됩니다.
 
앞서, 언어 모델의 예로 BERT 및 초기 GPT 기술에 대해 간략히 말씀드렸습니다. 흥미로운 점은 특정 신경 아키텍처로 인해 특정 범주의 작업에 적합하게 되었으며, 이러한 초기 언어 모델이 현재 사용 가능한 기술을 위한 토대를 마련했다는 것입니다. 이름을 살펴보면 BERT(트랜스포머로부터 양방향 인코더 표현)와 GPT(생성형 사전 훈련 트랜스포머) 모두 트랜스포머라는 하나의 공통 요소를 가지고 있다는 것을 알 수 있습니다. 트랜스포머는 텍스트 또는 시간 연속과 같은 순차적 데이터를 처리하도록 특별히 설계된 신경망 아키텍처의 한 유형입니다. 데이터를 순서대로 처리한 이전 모델과 달리 트랜스포머는 데이터의 모든 부분을 한 번에 볼 수 있으므로 복잡한 관계 및 컨텍스트를 훨씬 빠르게 이해할 수 있습니다. 트랜스포머는 모델이 “어텐션(Attention)”이라는 메커니즘을 사용하여 언어 간 번역, 단락 요약 또는 프롬프트를 기반으로 텍스트 생성 등 모델이 현재 달성하려는 목표에 따라 데이터의 다양한 부분에 집중할 수 있도록 도와줍니다. 트랜스포머는 자연어 처리 분야에 혁신을 일으켰으며 현장에서 사용되는 수많은 최신 AI 시스템의 근간이 되고 있습니다. 실제로 최초의 인공신경망 기반 기계 번역 시스템은 순환 신경망(RNN) 아키텍처를 기반으로 했지만, 현재 NMT 결과물은 도입 이후 점차 트랜스포머를 활용하고 있습니다. 어텐션 메커니즘과 전체 시퀀스를 동시에 처리할 수 있는 기능을 갖춘 트랜스포머 모델은 번역의 복잡성에 매우 효과적인 것으로 입증되었습니다. 이 아키텍처를 통해 NMT 시스템은 뉘앙스와 컨텍스트를 더 잘 포착하여 다양한 언어에서 더 정확하고 유창하게 번역할 수 있습니다. 
 
원래의 BERT와 GPT 모델은 모두 트랜스포머 아키텍처를 활용했지만 상당한 차이점도 있었습니다. BERT의 E는 인코더를 의미하지만 GPT는 주로 디코더 기반 아키텍처입니다. 고급 언어 모델에서 인코더는 심층 언어 분석을 수행하는 구성 요소입니다. 인코더는 입력 텍스트를 조사하여 단어와 구문 간의 의미, 구조 및 관계를 식별하고 입력의 본질을 복잡한 추상 표현으로 효과적으로 인코딩합니다. 디코더는 이 추상 표현을 해석하는 생성형 대응 관계입니다. 디코더는 교육 과정에서 학습한 패턴을 바탕으로 가장 가능성이 높은 단어 순서를 예측합니다. 그것은 단순히 보이는 내용을 반복하는 것이 아니라 상황 및 구문적 일관성을 제공하는 새로운 콘텐츠를 생성합니다.
 
이러한 두 구성 요소는 번역과 같은 작업에 사용되는 시퀀스 간 모델처럼 나란히 작동할 수 있지만, 특정 모델은 한 가지 면에 특화되어 있습니다. GPT는 텍스트 생성 작업에 디코더 부분만 사용하는 모델인 반면, BERT는 인코더 부분을 사용하여 질문에 대한 답변, 명명된 엔티티 인식 또는 품질 평가 등 언어를 깊이 이해해야 하는 작업에 대한 입력 텍스트를 이해하고 처리합니다.
 
이를 통해 우리는 흥미로운 가능성을 남겨줍니다. 당사는 인공신경망 기계 번역 엔진과 같은 인코더/디코더 모델은 물론, 입력 텍스트에 대한 정보를 제공할 수 있는 인코더 모델과 텍스트를 생성할 수 있는 디코더 모델을 보유하고 있습니다. 이것이 무슨 의미인지 아마 아실 것입니다. 당사는 번역, 텍스트 분석, 텍스트 생성의 세 가지 아키텍처를 사용하며 이를 다양한 작업에 맞게 최적화할 수 있습니다. 입력 텍스트를 자동으로 번역하고 개선이 필요한 부분을 자동으로 탐지한 다음 플래그 지정된 섹션을 자동으로 다시 작성하여 개선할 수 있도록 이 모두를 통합하면 어떨까요?
 
바로 이것이 당사가 랭귀지 위버 이볼브의 차세대 기능을 통해 수행한 내용입니다. 이는 세 가지 AI 기반 기술을 결합하여 MT 포스트에디팅의 과제를 해결합니다. 세 가지 구성 요소는 다음과 같습니다.
  1. 자동 적응형 언어 쌍을 갖춘 인공신경망 기반 기계 번역 - 랭귀지 위버의 이 기술은 이미 시장에서 그 우수성이 입증되었습니다. 필요한 언어 조합에 걸쳐 안전하고 확장 가능한 방식으로 관련 번역을 제공하도록 최적화되었습니다. 또한 외부 입력을 통해 지속적으로 학습할 수도 있습니다. 이러한 입력에는 번역 메모리 데이터, 이중 언어 사전 및 포스트에디팅을 통해 제공되는 실시간 피드백이 포함될 수 있습니다. 랭귀지 위버 언어 쌍은 또한 관련 이중 언어 콘텐츠가 있는 고객에게서 사전에 교육을 받을 수 있습니다. 
  2. 기계 번역 품질 평가(MTQE) – 언어 모델을 기반으로 하는 이 자동 예측 엔진은 낮은 품질의 번역을 자동으로 감지하고 플래그를 지정하도록 설계되었습니다. 흥미롭게도 구현 과정에서는 문서 및 세그먼트 수준 모두에서 가능했지만, 이볼브의 경우에는 우리는 각각의 번역된 문장을 양호, 적절 또는 불량으로 자동 표시하는 데 초점을 맞추고 있습니다. 이를 통해 어디에 개선에 대한 노력을 집중해야 하는지 알 수 있습니다.
  3. 마지막으로, 개선이 필요한 부분을 파악하게 되면 세 번째 구성 요소가 적용됩니다. 이 구성 요소는 대규모 언어 모델(LLM)을 기반으로 하는 자동화된 포스트에디팅 엔진으로 우리가 MT 및 MTQE 서비스에 사용하는 것과 동일한 인프라를 사용하여 안전하게 호스팅합니다.
인간 링귀스트에게 조악하고 부적절한 문장을 직접 보내는 대신, 우리는 기계에 이를 개선할 수 있는 기회를 제공하고, 더 나은 점수를 얻을 때까지 에디팅을 반복합니다. 시스템은 자동 에디팅이 완료될 때마다 MTQE 프로세스를 다시 실행하여 번역이 개선되었는지 테스트합니다.
이볼브를 통한 접근 방식에는 몇 가지 흥미로운 이점이 있습니다.
  • 모든 번역 작업은 고품질의 대규모 애플리케이션에 최적화된 전용 엔터프라이즈급 NMT 모델을 사용하여 수행되고, 계산 요구 사항은 합리적이며, 총소유비용은 낮습니다. 이 기술은 대규모 사용자 커뮤니티에서 성공적으로 사용되어 왔으며 수백 개의 상용 및 공공 부문 클라이언트에 구축됩니다. 
  • 이 품질 평가 모델은 사내 전문 언어 팀을 통한 인간 레이블 예를 사용하여 보정되었습니다. 이를 통해 모델의 성능을 조정하고 필요에 따라 새로운 언어로 범위를 확장할 수 있습니다.
  • 자동화된 포스트에디팅 서비스는 RWS에서 호스팅하는 전용 소규모 LLM을 사용합니다. 이를 통해 LLM 성능을 조정하고, 최고 수준의 데이터 보안을 제공하며, 예측 가능한 비용 구조 내에서 운영할 수 있습니다. 또한 타사 API 불안정성에 취약하지 않습니다.
  • 번역, 품질 평가, 포스트에디팅의 세 가지 개별 모듈에서 솔루션을 구축하면 개별 구성 요소뿐 아니라 함께 작동하는 방식도 조정할 수 있습니다. 예를 들어, 이제 랭귀지 위버는 원하는 결과를 얻을 때까지 평가/에디팅 작업 루프를 여러 번 반복할 수 있습니다. 에디팅 작업이 완료되면 품질 평가를 위해 번역이 다시 전송되며, 결과가 여전히 부적절하다고 판단되면 해당 문장은 포스트에디팅 모듈로 다시 전파됩니다. 그러나 이번에는 시스템이 소스 문서에서 추가 컨텍스트를 캡처하고 이를 사용하여 더 나은 번역을 생성합니다. (지금까지 테스트 결과 최대 세 번의 반복 작업을 통해 대부분의 콘텐츠 유형에 대해 품질, 속도 및 비용 간에 최상의 절충안을 제공하는 것으로 나타났습니다.)
  • 이볼브는 외부 시스템 및 워크플로우에서 번역을 사용하는 방식을 변경하지 않으므로 기존 MT를 사용하는 모든 사용 사례에 사용할 수 있습니다. 결정적으로, 어느 정도 사람의 개입이 여전히 필요하거나 많은 규제 콘텐츠와 같이 개입이 필수일 수 있는 로컬라이제이션 사용 사례에서 이볼브는 현재 워크플로우에 원활하게 통합되어 현재 인간 링귀스트에게 부과되는 포스트에디팅 부담을 완화할 수 있습니다. 
  • 마지막으로, 랭귀지 위버는 모든 자동 에디팅 및 평가 결과를 추적하므로 번역/평가/에디팅 시퀀스의 부산물은 번역 엔진에 대한 피드백의 환상적인 소스가 됩니다. 자동 조정 언어 쌍은 들어오는 에디팅 내용을 모니터링하고 관찰된 개선 사항을 반영하도록 모델을 자동으로 업데이트합니다.

RWS와 함께 발전할 수 있습니다

포스트에디팅 작업의 최적화는 기업 고객, 번역회사, 개인 링귀스트 등 번역 프로세스에 관련된 모든 관계자에게 있어 주요한 기회입니다. 자동 적응형 MT와 LLM을 함께 사용하여 수동 포스트에디팅 작업을 최소화하면 제한된 리소스를 고부가가치 활동에 우선적으로 할당할 수 있습니다. 또한 사람이 개입할 수 있는 여지가 최소화되거나 출시 시간 또는 인사이트 확보 시간이 주요 동인이 되는 사용 사례(예: 법적 전자 증거, 규정 준수 또는 디지털 법의학 관련 대규모 사용 사례)에서 자동 번역의 유용성이 향상됩니다. 로컬라이제이션 프로세스의 경우, 이 솔루션은 상당한 생산성 향상을 통해 ROI를 증대하는 데 도움이 됩니다. 또한, 적응형 MT 모델을 활용하고 싶지만 이전에 번역된 자료가 충분하지 않기 때문에 그럴 수 없는 조직에게 있어 랭귀지 위버 이볼브는 번역 프로세스를 시작하고 선순환 개선 주기를 시작할 수 있는 훌륭한 옵션입니다. 
 
그럼 어떻게 참여하면 될까요? RWS가 이 흥미로운 새 기능을 테스트할 수 있도록 지원해 주세요. RWS는 보안과 데이터 프라이버시가 항상 유지되도록 하는 적절한 검증과 엄격한 테스트를 거쳐 새로운 AI 혁신 기술을 책임감 있게 출시하고 있습니다. 이것이 바로 우리가 베타 프로그램에서 고객을 엄선하여 랭귀지 위버 이볼브를 신중하게 평가하는 이유입니다. 참여 의사를 등록할 수 있지만 자리가 제한적이라는 점을 알아두시기 바랍니다. AI 이점을 활용하시려면 바로 문의해 주세요.
바트 맥진스키
작성자

바트 맥진스키

머신 러닝, 솔루션 컨설팅 부문 부사장
바트는 RWS의 머신 러닝 부문 부사장입니다.
작성자 바트 맥진스키