翻译的演变之旅
2023年11月14日
7 分钟
持续创新
今年初,我曾撰写过一篇文章,探讨了三波技术创新浪潮如何塑造翻译行业。这三波创新浪潮或许并是那么地不令人意外,它们正是翻译记忆库 (TM)、翻译管理系统 (TMS) 和神经机器翻译 (NMT)。其中的每一种技术都推动了翻译流程的效率提升:TM 有助于减轻翻译重复文本所需的时间和精力,TMS 则可以集中管理翻译资源并优化工作流,而 NMT 则能提供初稿翻译,无需从头开始翻译新内容。
这三波创新的有趣之处在于它们之间是如何相互关联的。翻译记忆库技术有助于译员提高工作效率,储存了已核准翻译的数据库也具有重要价值。因此,为了有效协调翻译记忆库的任务分配并优化数据库的使用率,必须引入一种新的解决方案类别。TM 为 TMS 的发展创造了空间,TMS 则通过在多个团队、供应商和内容类型中扩大 TM 的影响力,使其更加出色。此外,机器翻译使得 TM 更加有价值,因为它不仅可以直接应用,还可以作为高质量的训练输入来源,持续提高自适应机器翻译模型的质量。
尽管如此,当我于一月份写下那篇文章时,已清晰可见又有一波技术浪潮即将席卷而来。一种名为大型语言模型的新型自然语言处理引擎正在向全球多元化的用户社区推出,这是第一次,专家之外的普通用户也能参与其中,不再局限于自然语言处理 (NLP) 研究人员或工程师。OpenAI 于 2022 年 11 月发布的 ChatGPT 是另一项引领潮流的技术创新。它将 GPT 大型语言模型整合成一个简洁直观的界面,并围绕自然对话的理念构建,使得所有具备读写能力的人都能轻松地使用这些模型。随后,众多不同的大型语言模型 (LLM) 如雨后春笋般涌现出来,诸如 Google Bard、Anthropic Claude、TII Falcon、Meta 的 LLAMA 等等。
我们目前所经历的,正是一场因大型语言模型新兴功能推动的 AI 革命加速发展,它展现出广泛的应用前景,但同时也无可避免地伴随着一些过度炒作。虽然我无法提供确切的数据,但我可以有把握地推测,ChatGPT 目前的用户数量已经超过了 2 亿,涵盖了各行各业以及各种企业职能。此外,还有一些竞争平台(如 Google Bard 或 Bing Chat)的用户以及开源 LLM 的用户。
考虑到如此大规模的采用(或许我们应该说是试验),因此听到各种不同的想法、使用案例、期望和担忧也就不足为奇了。在几乎所有行业领域中,AI 既有支持者也有反对者。他们有时持截然相反的观点,从认为“LLM 是现代知识的神喻”到认为“LLM 只是按照特定规则生成语言,而不能真正理解语言的含义”。虽然这些讨论可能颇具趣味性,但当我们撇开纷扰的表象,核心的实际问题便会逐渐浮现,那便是 LLM 在现实生活中的实际应用。而 LLM 的实际应用价值则取决于特定行业和使用案例的具体需求。如何借力当下如火如荼的 AI 革命,以改进当前的解决方案,进而实现更卓越的成果呢?
始料未及的后果
在翻译行业中,LLM 的初步试验涉及了多种使用案例,包括生成领域特定的内容、术语管理、性别偏见校正、TM 数据清理、语体或风格调整,以及翻译等。 对一些试验者来说,最后一个想法更具吸引力。毕竟,大型语言模型比专用 MT 模型要庞大得多,因此其表现理应更胜一筹,不是吗?这种创新性想法虽然令人赞叹,但若无法转化为实质的变革,便毫无用处。而且,不可预见的后果往往引发灾难。我记得早些时候的一个例子,当时有个客户试图用大型语言模型来取代专门的神经机器翻译系统。该客户希望利用大型语言模型所具备的广泛知识背景和强大的上下文信息处理能力,获得更相关、更一致的翻译,而无需人工干预。该客户与我们分享了他们的一些实验内容,经过深入调查,我们发现了一些我称之为“迎合翻译”的实例。在这些实例中,模型生成的翻译文本在可读性上并无问题,但未能完全准确地传达原文的意思。在其中一个实例中,原文句段涉及到了客户品牌旗下的一款产品。LLM 不知道如何将该产品名称翻译为目标语言,因此采用了另一种策略:首先,它准确地识别了产品的类别,然后从不同的制造商中挑选了类似的产品(它知道这些产品在目标语言中的名称),并将其插入到翻译后的句子中。尽管模型具备广泛的知识背景和强大的上下文信息处理能力,在生成翻译方面发挥了举足轻重的作用,但是其质量并未完全达到客户的期望或要求。整个经历让我想起了我在小学读过的一个简短故事,这个故事是波兰科幻小说作家史坦尼斯瓦夫·莱姆写的。在故事中(来自莱姆的《机器人大师》系列),Trurl 工程师发明了一台机器,这台机器能够生成以字母 N 开头的任何东西。起初,一切都在掌控之中,直到他的朋友 Klapaucius 要求机器创造“无”(Nothing),情况迅速演变为灾难性的后果。
我认为我们可以从中学到两个经验:首先,要深入考虑您的使用案例。了解哪些新技术(如 LLM)更合适,然后利用它们改善结果,同时确保不会破坏整个流程。了解您所面临的挑战,并明确当前的边界,即现有解决方案未能满足的需求。其次,如果您计划将创新技术引入到现有的工作流、流程或平台中,请确保对其实施与解决方案其他部分相同的管理措施。对于 LLM,这最初是两项挑战中更大的一个。将他人的 API 集成到自己的应用程序中,很难实现企业级翻译解决方案所需的安全性、可控性、可靠性和自定义级别。尤其是当解决方案的核心依赖于您自己无法掌控的模型时,更是难上加难。如果您的解决方案需要处理的数据并非您自己的数据,而是由您非常重要的客户委托给您的数据,那么风险会非常高。
当前的边界
在翻译行业中,当前的边界,即那些尚无法通过现成解决方案实现显著改进的领域,仍然需要持续不断地进行大量的人工干预。诚然,正如我在一开始所提到的那样,在过去几十年里,这一领域已经取得了巨大的进展。然而,如今专业语言学家的角色发生了显著的变化,他们的任务更多地集中在译后编辑和审校机器输出上。这就是为什么业界的主流声音要求译员从单纯的翻译角色转变为语言专家角色。
随着机器翻译技术的进步,对于特定领域、内容类型和使用案例的可自定义性不断提高,重点逐渐转向了两个关键任务:首先,确定翻译中可能需要改进的部分。其次,借助这种洞见,将精力集中于这些部分,以实现所需的改进。若这一观察结果能引起您的共鸣,那么当前我们亟待解决的挑战便是:如何将这两项任务转化为更加自动化的流程?我们应如何构建一种技术解决方案,推动翻译突破目前的极限呢?
Evolve 问世
正是这个问题,RWS 也在不久前向自己提出过。我们应当如何构建一个能够融合过去与现代创新成果的系统,以实现译后编辑流程的自动化,从而将新的创新浪潮引入整个行业呢?随着大型语言模型的崛起以及对其进行的广泛研究,这些努力将有助于为我们提供答案。
之前,我曾简要提及 BERT 和早期的 GPT 技术作为语言模型的范例。它们的一个有趣之处在于,其独特的神经结构使得它们非常擅长处理特定类别的任务,同时这些早期语言模型为现有技术的发展铺平了道路。如果您观察这两个模型的名称,BERT(来自转换器的双向编码器表示)和 GPT(生成式预训练转换器),您会发现它们都包含了一个共同的关键元素——那就是转换器。转换器是一种专为处理序列数据而设计的神经网络架构,例如文本或时间序列数据。与以往按顺序处理数据的模型不同,转换器能同时纵览数据全貌,这使得它们能够更迅速地领悟复杂的关系和上下文。它们通过一种名为“关注”的机制来实现这一操作,这种机制使模型能够根据当前的目标,将注意力集中在数据的不同部分。例如,翻译不同的语言,总结段落大意,或基于提示词生成文本。转换器在自然语言处理领域掀起了一场革命性的变革,成为了许多现代 AI 系统在该领域应用的重要支柱。事实上,尽管首个神经机器翻译系统是建立在循环神经网络 (RNN) 架构之上的,但自转换器问世以来,当前的 NMT 模型越来越多地采用转换器。转换器模型凭借其关注机制以及对整个序列的同时处理能力,已经证明其在处理复杂的翻译任务方面具有显著成效。这种架构使 NMT 系统能够更精准地捕捉到微妙的语义和语境,从而以不同的语言输出更加准确、流畅的翻译。
尽管如此,虽然原始的 BERT 和 GPT 模型都采用了转换器架构,但它们之间还是存在显著的差异。BERT 中的 E 代表编码器,而 GPT 则主要采用基于解码器的架构。在高级语言模型中,编码器是执行深度语言分析的模块。它对输入文本进行深入剖析,以识别其含义、结构以及单词和短语之间的相互关系,从而有效地将输入的核心内容转化为一种复杂且抽象的表示。解码器是解读这种抽象表示的生成式模块。它运用在训练过程中习得的规律,来预测更有可能的单词顺序。它不仅能够复述所观察到的内容,还能根据上下文和语法规则生成全新的内容。
虽然这两个模块可以协同工作,例如序列到序列模型在处理翻译等任务方面表现出色,但某些模型在特定领域具有不可替代的优势。GPT 这种模型仅采用解码器部分来执行文本生成任务。另一方面,BERT 则利用编码器部分来深入理解和处理那些需要对语言有深入了解的任务中的输入文本,例如问题回答、命名实体识别或质量评估。
这为我们揭示了一个充满可能性的激动人心的领域。我们有编码器/解码器模型,例如神经机器翻译引擎,利用编码器模型分析输入文本的信息,利用解码器模型生成新的文本。您或许已经察觉到,我们可以使用三种不同的架构,并针对不同的任务进行优化:一种用于翻译,一种用于文本分析,一种用于文本生成。如果我们将它们整合在一起,以便能够自动翻译输入文本、自动检测需要改进的部分,并自动重写标记的部分以实现进一步的优化,那又会是怎样的情景呢?
这正是我们在 Language Weaver Evolve 的下一代功能中所做的。它融合了三种 AI 技术,以应对机器翻译译后编辑的挑战。这三个模块是:
- 具有自适应语言对功能的神经机器翻译——Language Weaver 的这项技术已经在市场上得到了验证。这项技术经过优化,可以有效处理所需的语言组合,以安全且可扩展的方式提供相关翻译。此外,它还可以持续学习外部输入,从而不断提高自身的准确性。这些输入可能包括翻译记忆库数据、双语词典和译后编辑提供的实时反馈。客户如果拥有相关的双语内容,也可以对 Language Weaver 语言对进行预先训练。
- 机器翻译质量评估 (MTQE)——此自动估算引擎以语言模型为基础,旨在自动检测并标记质量欠佳的翻译。有趣的是,在我们的实施过程中,它可以在文档和句段级别上评估翻译质量——但对于 Evolve,我们把重点放在自动将每个已翻译句子标记为“优秀”、“一般”或“较差”,以明确需要重点改进的地方。
- 最后,一旦我们明确了需要改进的地方,第三个模块便能发挥作用。它是一个基于大型语言模型 (LLM) 的自动译后编辑引擎,我们使用与机器翻译和 MTQE 服务相同的基础设施来安全地托管此引擎。
我们不是直接将较差和一般的句子发送给人类语言服务专家,而是让机器对它们进行改进和迭代编辑,直到获得更高的评分。系统在每次自动编辑后,会重新运行 MTQE 流程,以评估翻译质量是否得到提升。
Evolve 的一些引人注目的优势包括:
并肩前行,共同演变
- 所有翻译工作都使用专门的企业级神经机器翻译模型处理,这些模型已针对高质量和大规模应用进行了优化,能够合理利用计算资源,有效降低总体拥有成本。该技术已被大型用户社区广泛采用,并已成功部署在众多商业和公共部门客户之中。
- 我们的内部语言服务专家团队利用由人类专家标注的语言数据样本,对质量评估模型进行校准。通过这种方式,我们可以根据需求调整模型的表现,并扩展其覆盖范围以处理新的语言。
- 自动译后编辑服务使用由 RWS 托管的专用小型 LLM 来实现。这使我们能够调整大型语言模型 (LLM) 的性能,并确保数据安全性得到严密保障,同时在可预测的成本结构内实现稳定运行。此外,该服务不会因为第三方 API 不稳定而受到影响。
- 通过构建由三个独立模块(翻译、质量评估和译后编辑)组成的解决方案,我们不仅可以单独调整每个模块的性能,还可以调整它们之间如何协同工作。例如,Language Weaver 现在可以多次迭代评估/编辑任务,直到获得所需的结果。在编辑任务完成后,翻译将重新发送至质量评估模块进行质量评估。如果评估结果仍然不理想,该句子将再次发送到译后编辑模块进行修改。而这次系统将捕获源文档中的其他上下文信息,并利用这些信息生成更优质的翻译。(到目前为止,我们的测试显示,通过多达三次迭代,即可有效处理大多数类型的内容,并在质量、速度和成本之间找到合适的平衡)。
- Evolve 适用于所有使用传统机器翻译的使用案例,因为它不会改变外部系统和工作流使用翻译的方式。更重要的是,在本地化使用案例中,有时可能需要一定程度的人工干预(或强制要求,例如在许多监管内容中),但 Evolve 可以无缝集成到当前的工作流中,以减轻目前由人类语言服务专家承担的译后编辑工作量。
- 最后,Language Weaver 对所有自动化编辑和评估结果进行追踪,利用翻译/评估/编辑这一任务序列所产生的衍生数据不断磨砺翻译引擎,提高其准确性。自适应语言对可以监控传入的编辑,并自动更新其模型以反映观察到的改进。
并肩前行,共同演变
优化译后编辑任务是翻译流程中所有参与者提高效率的黄金机会,涵盖企业客户、语言服务提供商以及语言服务专家。通过巧妙地融合自适应机器翻译与 LLM,我们可以有效削减译后编辑的人工工作量,从而将宝贵的资源优先分配给更有价值的活动。此外,它还增强了自动翻译在需要大幅减少人工干预的使用场景中的实用性,或者在快速上市和获得深刻见解为主要考虑因素,例如法律电子取证、法律合规性或数字取证等需要进行大量翻译的使用案例中,其表现尤为出色。对本地化流程,该解决方案通过提高工作效率,助力提升投资回报率。对于那些期望利用可调适的机器翻译模型提升工作效率,然而却因缺乏足够的翻译材料而无法如愿以偿的组织,Language Weaver Evolve 堪称理想之选。它能够迅速启动翻译流程,并开启持续改进的良性循环。
那么,您可以如何参与进来呢?帮助我们测试这个激动人心的新功能。在 RWS,我们深知将开创性 AI 成果推向市场需承担起责任。因此,我们始终进行适当的验证和严格的测试,以确保产品的安全性始终得到严密保障,同时充分尊重数据隐私。因此,我们将与部分客户携手,在测试版计划中审慎评估 Language Weaver Evolve。您可以在此登记您的参与意向,但请注意名额有限。为了确保您在 AI 领域拔得头筹,请尽快与我们联系。