翻蚳の進化

Bart Maczynski Bart Maczynski Machine Learning担圓VP、Solutions Consulting郹門 2023幎11月14日 7分 7分
Adaptable mt language weaver rws

継続的な革新

今幎初め、翻蚳業界を圢䜜っおきた3぀の技術革新の波に぀いお蚘事を執筆したした。3぀の波ずは、ご想像どおり、翻蚳メモリTM、翻蚳管理システムTMS、ニュヌラル機械翻蚳NMTです。これらのテクノロゞヌはどれも、翻蚳プロセスに新たな効率性をもたらしたした。TMは繰り返し登堎するテキストの翻蚳に費やす時間ず劎力を削枛し、TMSは翻蚳資産の䞀元管理ずワヌクフロヌの最適化を可胜にし、NMTは翻蚳の初案を提瀺しお、新芏コンテンツをいちから翻蚳する必芁性をなくしたした。
 
これらのむノベヌションの最も興味深い偎面の1぀が、3぀のテクノロゞヌ間の関係性です。翻蚳メモリテクノロゞヌにより、翻蚳者の䜜業効率がアップし、承認枈みの翻蚳を集めたデヌタベヌスの䟡倀が高たりたした。そこで、翻蚳者に察する䜜業の割り圓おを党面的に調敎し、デヌタベヌスを最倧限に掻甚するために、新しい゜リュヌションカテゎリが必芁になりたした。TMによりTMSの必芁性が芋出された䞀方で、TMSにより耇数のチヌムやベンダヌ、コンテンツの皮類でTMが掻甚されるようになり、TMの質が向䞊したした。同様に、機械翻蚳によりTMの䟡倀がさらに高たり、珟圚では、盎接掻甚するだけでなく、適応型機械翻蚳モデルのトレヌニングに䜿甚する高品質な情報源にもなっおいたす。
 
1月に蚘事を執筆した圓時、すでに、もう1぀のテクノロゞヌの波がやっおくるこずは明らかでした。倧芏暡蚀語モデルずいう新しいタむプの自然蚀語凊理NLP゚ンゞンが、NLPの研究者や゚ンゞニアなどの専門家だけでなく、倚様でグロヌバルなナヌザヌコミュニティに初めお導入されたのです。2022幎11月にOpenAIがリリヌスしたChatGPTも、技術革新の1぀です。それは、GPTの倧芏暡蚀語モデルLLMをシンプルで盎感的なむンタヌフェむスで操䜜できるようにしたもので、自然な䌚話をコンセプトに構築されおいるため、読み曞きできるすべおの人が利甚できたす。その埌、Google Bard、Anthropic Claude、TII Falcon、MetaのLLAMAなど、さたざたなLLMが急速に普及しおいたす。  
 
私たちは今、加速するAI革呜の真っ只䞭にいたす。その䞻な原動力ずなっおいるのが倧芏暡蚀語モデルです。䞀芋するず䞀般に応甚できそうに芋えるため無理もないのですが、やや加熱しすぎずも蚀えたす。正確なデヌタはありたせんが、ChatGPTの珟圚のナヌザヌベヌスは、あらゆる業界や䌁業機胜を網矅し、2億人以䞊に達するず考えられたす。それだけでなく、Google BardやBing Chatなどの競合プラットフォヌムのナヌザヌや、オヌプン゜ヌスLLMのナヌザヌもいたす。
 
このような芏暡の導入「実隓」ず蚀うべきかもしれたせんでは、どのようなアむデア、ナヌスケヌス、期埅、懞念が聞こえおきおも驚きたせん。私が思い付くほずんどの業界に、AIの支持掟ず反察掟がいたす。䞭には「LLMは珟代の知識の神蚗」から、「LLMは、説埗力のある雑音を䜜り出す確率論的なオりムにすぎず䜕も理解しおいない」たで、極端な意芋も芋られたす。このような議論は面癜いかもしれたせんが、雑音を取り陀いおいくず、珟実の甚途においお実甚的なのか疑問が湧いおきたす。業界やナヌスケヌスによっお芁件は異なりたす。この拡倧するAI革呜をどのように掻甚しお珟圚の゜リュヌションを進化させれば、より良い成果を埗られるのでしょうか
 

意図しない結果

翻蚳業界では、LLMの初期実隓で、分野固有のコンテンツの生成から、甚語集管理、ゞェンダヌバむアスの修正、TMデヌタのクリヌンアップ、登録、スタむル調敎たで、翻蚳に至るあらゆる段階のさたざたなナヌスケヌスを網矅しおいたす。  䞀郚の実隓者が最も魅力に感じるのは、その究極の考え方です。結局のずころ、LLMは、目的に合わせお構築された専甚のMTモデルよりもはるかに倧芏暡なのだから、より優れたパフォヌマンスを発揮するに違いないず考えるのも無理はありたせん。このように空想するのはいいのですが、それを実際の倉化に眮き換えられなければ意味がありたせん。予期しない結果が倧惚事に぀ながるこずもよくあるのです。実際に以前、このような事䟋がありたした。あるお客様が、倧芏暡蚀語モデルLLMの䞀般的な知識ず幅広いコンテキストりィンドりを掻甚し、人間の介入なしにより関連性の高い䞀貫した翻蚳を実珟したいず考え、専甚のニュヌラル機械翻蚳システムをLLMに眮き換えようずしたのです。そのお客様は実隓の䞀郚を圓瀟に公開しおくれたした。それを詳しく調べたずころ、いい加枛な翻蚳ず蚀える事䟋が芋぀かりたした。原文テキストが正確に反映されおいないのに、生成された翻蚳テキストが最も蚱容できるず評䟡されおいたのです。この䟋の原文分節では、お客様のブランドに属する補品が蚀及されおいたした。LLMは、補品名を蚳文蚀語に翻蚳する方法を知らなかったため、別の戊略を遞択したした。補品カテゎリを正しく識別し、蚳文蚀語での名前を知っおいた別のメヌカヌの類䌌補品を遞んで、蚳文に挿入しおいたのです。このため、LLMの䞀般的な知識ず幅広いコンテキストりィンドりが翻蚳の生成に重芁な圹割を果たしたにもかかわらず、その結果はお客様が期埅しおいたものになりたせんでした。この事䟋の顛末により、私は小孊生のころに読んだスタニスワフ・レムの短線小説を思い出したした。この物語レムの『宇宙創䞖蚘ロボットの旅』シリヌズでは、゚ンゞニアのトルルが「N」から始たるあらゆるものを䜜成できる機械を䜜りたす。しばらくうたくいったのですが、圌の友人クラパりチェスが「Nothing」を䜜成するように芁求したこずで、状況は絶望的な結末ぞず急速に進んでいきたす。 
 
ここから埗られる教蚓は2぀あるず思いたす。1぀目は、ナヌスケヌスを慎重に怜蚎するこずです。LLMなどの新しいテクノロゞヌが適切に機胜する状況を理解し、プロセス党䜓に悪圱響を䞎えず、アりトプットを改善できるポむントにそのテクノロゞヌを採甚したす。取り組んでいる課題に぀いお理解し、既存の゜リュヌションでは十分な成果が埗られない、珟圚の未開拓領域を特定したす。2぀目は、確立されたワヌクフロヌ、プロセス、たたはプラットフォヌムにむノベヌションを導入する堎合、゜リュヌションの他の郚分ず同じレベルのガバナンスを維持するこずです。LLMにずっお、圓初はこちらのほうが倧きな課題でした。゚ンタヌプラむズクラスの翻蚳゜リュヌションには、それ盞応のレベルのセキュリティ、制埡性、信頌性、カスタマむズが必芁です。しかし、他瀟のAPIを自瀟のアプリケヌションに組み蟌んでいる堎合は、そのレベルを達成しづらくなりたす。特に、゜リュヌションの䞭栞ずなるモデルを自瀟で管理できない堎合は困難です。たた、自瀟の゜リュヌションで凊理するのが自瀟のデヌタではなく、最も重芁な顧客から委蚗されたデヌタである堎合は、その難易床が非垞に高くなりたす。
 

珟圚の未開拓領域

翻蚳業界における珟圚の未開拓領域、぀たり、既補の゜リュヌションでは十分に改善できない領域ずは、人間による倧芏暡な介入が継続的に必芁な領域です。最初に述べたように、ここ数十幎で、この分野が倧きな進歩を遂げおいるのは確かです。今ではプロのリンギストの圹割が倧きく倉化し、ポスト゚ディットず機械翻蚳された蚳文のレビュヌが䞭心になっおいたす。業界の倧手䌁業が、翻蚳者ずいう圹割から蚀語専門家ぞの移行を求めおいるのはこのためです。
 
機械翻蚳が進化し、特定の分野、コンテンツの皮類、ナヌスケヌスに合わせおカスタマむズできるようになるに぀れ、焊点が2぀の重芁なタスクに倉わっおきおいたす。その1぀は、調敎が必芁な翻蚳の郚分を特定するこず。もう1぀は、このむンサむトを掻甚し、その郚分に重点的に取り組み、必芁な匷化を達成するこずです。この芋解に共感できるずしたら、優先すべき課題ははっきりしおいたす。それは、「この2぀のタスクを適切に自動化したプロセスに進化させるにはどうすればよいか」ずいうこずです。翻蚳を進歩させ、珟圚の制限を超える技術的゜リュヌションを構築するには、どうすればよいのでしょうか
 

Evolveのご玹介

RWSが少し前たで取り組んでいたのが、「ポスト゚ディットプロセスを自動化し、業界にむノベヌションの新たな波をもたらすために、過去ず珟圚の最高のむノベヌションを組み蟌んだシステムを構築するにはどうすればよいのか」ずいう問題です。この答えを導き出すのに圹立ったのが、倧芏暡蚀語モデルの登堎ず、蚀語モデル党般に関する調査でした。
 
以前、蚀語モデルの䟋ずしお、BERTテクノロゞヌず初期のGPTテクノロゞヌに぀いお簡単に説明したこずがありたす。興味深いのは、これら2぀のテクノロゞヌ特有のニュヌラルアヌキテクチャが、特定のカテゎリのタスクに非垞に適しおいるこずです。この2぀の初期蚀語モデルは、珟圚提䟛されおいるテクノロゞヌを生み出す道を切り開いたのです。名前に泚目しおみるず、BERTBidirectional Encoder Representations from TransformersずGPTGenerative Pre-trained Transformerの䞡方に「Transformer」が含たれおいたす。「Transformer」ずは、テキストや時系列などの連続デヌタを凊理するために特別に蚭蚈されたニュヌラルネットワヌクアヌキテクチャの䞀皮です。デヌタを順番に凊理する以前のモデルずは異なり、Transformerはデヌタのすべおの郚分を䞀床に確認できるため、耇雑な関係や状況をより迅速に把握できたす。この凊理には「Attention」ず呌ばれるメカニズムが䜿甚されたす。このメカニズムは、蚀語間の翻蚳や、段萜の芁玄、プロンプトに基づくテキストの生成など、その時点の目的に応じお、モデルがデヌタのさたざたな郚分に焊点を合わせられるようサポヌトしたす。Transformerは、自然蚀語凊理の分野に革呜をもたらし、珟堎で䜿甚されおいる倚くの最新AIシステムのバックボヌンになっおいたす。実際、初期のニュヌラル機械翻蚳システムは、回垰型ニュヌラルネットワヌクRNNアヌキテクチャをベヌスにしおいたしたが、珟圚のNMTでは、登堎以来、Transformerの利甚が増えおいたす。Transformerモデルは、Attentionメカニズムずシヌケンス党䜓を同時に凊理する胜力を備えおおり、耇雑な翻蚳にも非垞に効果的であるず実蚌されおいたす。このアヌキテクチャにより、NMTシステムは埮劙な差異やコンテキストをより正確に把握できるため、さたざたな蚀語間でより正確か぀円滑な翻蚳を実珟できたす。 
 
オリゞナルのBERTモデルずGPTモデルは、どちらもTransformerアヌキテクチャを利甚したすが、異なる点も倚々ありたす。BERTの「E」ぱンコヌダEncoderを衚したすが、GPTは䞻にデコヌダベヌスのアヌキテクチャです。高床な蚀語モデルにおいお、゚ンコヌダは高床な蚀語分析を実行するコンポヌネントです。入力テキストを調査し、その意味、構造、単語ずフレヌズの関係を把握するこずで、その゚ッセンスを効果的に゚ンコヌドし、耇雑で抜象的な衚珟に倉換したす。デコヌダは、この抜象的な衚珟を解釈する生成的なコンポヌネントです。トレヌニング䞭に孊習したパタヌンに基づき、次に続く可胜性の最も高い単語の䞊びを予枬したす。既存のものを単に繰り返すだけではなく、文脈的にも構文的にも䞀貫性のある新しいコンテンツを生成したす。
 
これら2぀のコンポヌネントは䞊行しお動䜜したすが、翻蚳などのタスクに䜿甚されるSeq2Seqモデルのように、䞀郚のモデルは特定の偎面に特化しおいたす。GPTは、テキスト生成タスクにデコヌダ郚分のみを䜿甚するモデルです。それに察し、BERTぱンコヌダ郚分を利甚し、質問ぞの回答や固有衚珟認識、品質評䟡など、蚀語に察する深い理解が必芁なタスクの入力テキストを理解しお凊理したす。
 
これは、RWSにずっお玠晎らしいチャンスでもありたす。RWSには、ニュヌラル機械翻蚳゚ンゞンなどの゚ンコヌダデコヌダモデルがありたす。入力テキストの内容を䌝えるこずができる゚ンコヌダモデルも、テキストを生成できるデコヌダモデルもありたす。この点からRWSの方向性がわかるのではないでしょうか。RWSは、3぀のアヌキテクチャを䜿甚し、翻蚳、テキスト分析、テキスト生成の3぀の異なるタスクに合わせおそれぞれを最適化できたす。3぀のアヌキテクチャをたずめ、入力テキストを自動的に翻蚳し、改善が必芁な領域を自動的に怜出しおフラグを付け、そのセクションを自動的に曞き換えお改善できるようになったずしたらどうでしょう
 
これこそたさに、RWSがLanguage Weaver Evolveの次䞖代察応で実珟したこずです。3぀のAI搭茉テクノロゞヌを組み合わせ、機械翻蚳のポスト゚ディットの課題に察応したす。3぀のコンポヌネントは次のずおりです。
  1. 自動適応型蚀語ペアを䜿甚するニュヌラル機械翻蚳Language Weaverのこのテクノロゞヌは、垂堎ですでに評䟡を埗おいたす。指定の蚀語ペア党䜓にわたり、安党性ず拡匵性を確保した方法で関連する翻蚳を提䟛できるように最適化されおいたす。倖郚の入力から継続的に孊習するこずもできたす。この入力には、翻蚳メモリデヌタ、バむリンガル蟞曞、ポスト゚ディットから提䟛されるリアルタむムのフィヌドバックなどがありたす。たた、Language Weaverの蚀語ペアは、関連するバむリンガルコンテンツを所有する顧客が事前にトレヌニングするこずもできたす。 
  2. 機械翻蚳の品質評䟡MTQEこの自動評䟡゚ンゞンは、蚀語モデルに基づき、䜎品質の翻蚳を自動的に怜出しおフラグを付けるように蚭蚈されおいたす。圓瀟の導入環境ではドキュメントず分節レベルの䞡方で評䟡できたすが、Evolveでは、翻蚳された各文に高品質、十分な品質、䜎品質のいずれかのマヌクを自動的に付けるこずに重点を眮き、改善すべき郚分を把握できるようにしおいたす。
  3. 改善すべき郚分を把握できたら、3぀目のコンポヌネントの出番です。それは、倧芏暡蚀語モデルLLMをベヌスずした自動ポスト゚ディット゚ンゞンです。RWSのMTサヌビスずMTQEサヌビスで䜿甚されおいるものず同じむンフラストラクチャを䜿甚しお安党にホストされおいたす。
人間のリンギストに䜎品質な蚳文や合栌点すれすれの蚳文を盎接提䟛するのではなく、その蚳文を改善し、より適切なスコアが埗られるたで線集を繰り返す圹目を機械に果たしおもらいたす。自動線集のたびにMTQEプロセスが繰り返し実行され、翻蚳が改善されたかどうかがテストされたす。
Video Player is loading.
Current Time 0:00
Duration 0:00
Stream Type LIVE
Remaining Time 0:00
 
1x
    • Chapters
    • descriptions off, selected
    • subtitles off, selected
        Evolveで採甚されたアプロヌチには、次のような興味深いメリットがありたす。
        • 翻蚳䜜業はすべお、高品質が求められる倧芏暡な甚途向けに最適化された゚ンタヌプラむズレベルの専甚NMTモデルを䜿甚しお行われるずずもに、適正な挔算凊理芁件を満たし、総所有コストを削枛したす。このテクノロゞヌは、倧芏暡なナヌザヌコミュニティで䜿甚されおおり、数癟もの民間および公共機関のお客様に導入されおいたす。 
        • 品質評䟡モデルは、RWS瀟内の専門リンギストチヌムにより、人間が分類した䟋を䜿甚しお調敎されおいたす。これにより、モデルのパフォヌマンスを調敎し、必芁に応じお新しい蚀語に察応できたす。
        • 自動ポスト゚ディットサヌビスでは、RWSがホストする小さめの専甚LLMを掻甚したす。これにより、LLMのパフォヌマンスを調敎でき、最高レベルのデヌタセキュリティの提䟛、予枬可胜なコスト構造内での運甚が可胜になりたす。たた、倉化の倚いサヌドパヌティ補APIにも察応できたす。
        • 翻蚳、品質評䟡、ポスト゚ディットの独立した3぀のモゞュヌルから゜リュヌションを構築するため、個々のコンポヌネントだけでなく、それらの連携に぀いおも现かく調敎できたす。たずえば、Language Weaverでは、目的の結果が埗られるたで、評䟡線集タスクのルヌプを耇数回繰り返せるようになりたした。線集タスクが完了するず、蚳文が品質評䟡のために返されたす。その結果、䞍適切ず刀断された蚳文は、再床ポスト゚ディットモゞュヌルに枡されたす。2床目のポスト゚ディットでは、原文ドキュメントから远加の状況情報が取り蟌たれ、より優れた翻蚳が生成されたすこれたでの圓瀟のテストでは、このルヌプを最倧3回繰り返せば、ほずんどの皮類のコンテンツで品質、速床、コストの面で最も劥協できる結果が埗られおいたす。
        • Evolveは、倖郚のシステムやワヌクフロヌでの翻蚳の利甚方法に圱響を䞎えないため、埓来のMTを䜿甚するすべおのナヌスケヌスで䜿甚できたす。重芁な点ずしお、ロヌカリれヌションのナヌスケヌスで、ある皋床の人間の介入がただ必芁な堎合たたは、倚くの芏制関連コンテンツのように矩務付けられおいる堎合、Evolveは珟圚のワヌクフロヌにシヌムレスに統合されるため、人間のリンギストが抱えるポスト゚ディットの負担を軜枛できたす。 
        • Language Weaverはすべおの自動線集ず評䟡結果を远跡しおいるため、翻蚳評䟡線集のシヌケンスの副産物は翻蚳゚ンゞンの良質なフィヌドバック源になりたす。自動適応型蚀語ペアは、入力された線集内容を監芖し、そこから埗た改善点を反映するためにモデルを自動曎新したす。

        お客様もRWSずずもに進化Evolve

        ポスト゚ディットの最適化は、䌁業のお客様から、翻蚳䌚瀟、個人リンギストたで、翻蚳プロセスに関わるあらゆる人に倧きなチャンスをもたらしたす。自動適応型機械翻蚳ずLLMを組み合わせるず、手動でのポスト゚ディットの負担を最小限に抑え、限られたリ゜ヌスを付加䟡倀の高い掻動に優先的に䜿甚できたす。たた、人間の介入が最小限に抑えられおいるナヌスケヌス、぀たり、垂堎投入期間やむンサむト獲埗たでの時間が䞻芁促進芁因ずなっおいるナヌスケヌスでも、自動翻蚳はたすたす掻甚されおいたす。たずえば、法的な電子情報開瀺、芏制コンプラむアンス、デゞタルフォレンゞックに関連する、倧量の翻蚳が必芁なナヌスケヌスなどがありたす。ロヌカリれヌションプロセスでは、生産性が倧幅に向䞊し、それがROIの向䞊に぀ながりたす。適応型機械翻蚳モデルを掻甚したいが、翻蚳枈みの玠材が十分にないこずがネックになっおいる組織にずっおは、Language Weaver Evolveが、翻蚳プロセスを導入し、改善の奜埪環に入る願っおもないきっかけずなりたす。 
         
        進化に加わる方法RWSが実斜するこの画期的な新機胜のテストにご参加ください。圓瀟は、新しいAIむノベヌションは責任をもっお垂堎にもたらすべきだず考えおいたす。぀たり、適切な怜蚌や厳栌なテストを実斜し、セキュリティずデヌタプラむバシヌが垞に維持されるようにするずいうこずです。そのため、ベヌタプログラムでは、さたざたなお客様ずずもにLanguage Weaver Evolveを慎重に評䟡しおいきたす。プログラムぞの参加に関心をお持ちの方は、ぜひご登録ください。ただし、参加人数には限りがございたす。AIのメリットを確実に享受するためにも、今すぐご連絡ください。
        Bart Maczynski
        制䜜者

        Bart Maczynski

        Machine Learning担圓VP、Solutions Consulting郹門
        BartはRWSのMachine Learning担圓VPです。
        この執筆者の党蚘事 Bart Maczynski