TAUS指南在快速译后编辑(LPE)中的应用以医学报告为例

所属分类：文史论文阅读次时间：2021-12-21 10:37

本文摘要：摘要：随着互联网、大数据、云计算的飞速发展，机器翻译发生了巨大变化，机器翻译译后编辑(machinetranslationpost-editing，MTPE)模式也应运而生，逐渐成为翻译服务业的主流模式。但若要进一步提高MTPE效率和质量，还需要相应的规范和准则加持，以帮助译后编辑者识别

高端学术服务项目

　　摘要：随着互联网、大数据、云计算的飞速发展，机器翻译发生了巨大变化，机器翻译译后编辑(machinetranslationpost-editing，MTPE)模式也应运而生，逐渐成为翻译服务业的主流模式。但若要进一步提高MTPE效率和质量，还需要相应的规范和准则加持，以帮助译后编辑者识别机器翻译错误并快速决策机器译文是否需要进行编辑。通过介绍翻译自动化用户协会(TAUS)的MTPE指南的相关实践准则，并根据文本性质和受众选取适用准则指导进行了医学报告的快速译后编辑(lightpost-editing,LPE)实践，对医学报告文本译后编辑实践中存在的词汇错译、分词短语错译、从句错译以及段落错译、漏译等问题进行了分析，并对该指南的实际指导意义进行了总结与评价。

　　关键词：机器翻译;快速译后编辑;机器翻译译后编辑指南;医学报告翻译

机器翻译

　　近年来，机器翻译质量得到了极大改善，信息技术已经与翻译服务业深度融合。同时全球化和本地化催生的海量翻译需求，传统的纯人工翻译无法满足且成本相对较高，新的翻译业务类型与质量标准相较以前都有了很多变化，从而促使越来越多的企业开始用机器翻译技术进行初步的翻译项目处理，也就导致了译后编辑市场的扩大。

　　作为提升机器翻译质量的新模式，译后编辑还缺少规范一致的实践原则、质量评估标准等，因此若要该模式得到有效并广泛的应用，还需要清晰明确的各类指导准则。2016年，翻译自动化用户协会(TranslationAutomationUserSociety，TAUS)发布了MTPost-editingGuidelines，这是目前可参考的较为完整的机器翻译译后编辑指南。本文根据该指南对医学报告机器译文进行了快速译后编辑实践，并对其指导意义及存在的问题进行了分析。

　　一、机器翻译与译后编辑

　　(一)机器翻译的发展及缺陷

　　机器翻译的广泛应用产生了巨大的社会效益和经济效益。回顾其发展历程，主要经历了四个阶段：一是基于规则(RBMT);二是基于例子(EBMT);三是统计机器翻译(SMT);四是神经网络机器翻译(NMT)。神经网络机器翻译利用已有的大规模的真实语料库来进行深度学习，从语料库中自动获取语言特征和规则，它是基于大数据、使用神经网络来实现翻译的机器翻译系统[1]。神经网络机器翻译的发展使机器译文质量得到了质的提升。

　　但即便神经机器翻译系统使机器译文质量飞速发展，机器译文仍有很多局限性，自然语言处理仍有许多在实践中难以解决的问题，比如从句错译、词汇错译、译文调序失败、符号错译、漏译等问题[2]。医学报告作为医学文本的一种，其特点就是缩略语、医学术语使用较多，同时为表客观及行文简洁准确，被动语态以及分词结构应用较多[3]。机器在翻译医学文本时，往往会出现术语错译、漏译和词汇替代错译问题，同时也会出现对被动句以及分词结构的处理不当导致译文含义与原文出现偏差的现象。具体可见本文第三章的实践分析。要克服机器译文存在的这些缺陷，使译文质量达到要求，目前最有效快捷的方法就是对其进行人工修改、完善，即进行机器翻译译后编辑。

　　(二)译后编辑概述

　　译后编辑(post-editing)是在语言或格式方面，对机器翻译的原始产出，即初始译文，进行加工与修改来提高机译产出的准确性与可读性[4]。2010年TAUS实践中的译后编辑报告将译后编辑定义为“用最少的人工改进机器生成的翻译的过程”[5]。而针对不同要求和目的，关于机器翻译译后编辑的ISO18587标准将译后编辑分为两个级别：快速译后编辑(LightPost-editing,LPE)、完全译后编辑(FullPost-editing,FPE)[6]。

　　机器翻译译后编辑模式充分发挥机器翻译的速度(效率)，也充分发挥人工翻译的精度(质量)，从而既满足翻译市场快速发展的需求，也推动了翻译技术的发展，还促进了学界和业界的交流与合作，丰富了语言服务产业链的组成[7]。不过译后编辑作为新的翻译工作模式，在实践过程中除了要识别并纠正上述机器译文各类错误之外，还需考虑效率、质量要求、成本等各方面因素。

　　因此其在发展过程中还需要独立、一致的标准来衡量和约束译后编辑的质量，确定译后编辑工作量等，帮助译后编辑者更加高效高质地完成译后编辑任务，同时培养出更多高质量的译后编辑人员。但目前机器翻译译后编辑相关的大部分实践准则相对宏观，如崔启亮提出的实践准则相对宏观，进行实践时还需自行确立具体规则[7]。而MidoriTatsuni提出的对MTPE译文相关的部分要求与TAUS类似，但比较宽泛，并未针对不同的质量要求进行细致划分，实际应用时还需综合考虑各种因素进行细化[8]。目前相对具体的实践准则是TAUS发布的MTPOSTEDITINGGUIDELINES，根据不同的质量要求列出了对应的原则，所以本文采用该原则指导了所选文本的译后编辑实践，以检验其是否可有效提高译后编辑效率。

　　二、TAUS机器翻译译后编辑指南

　　TAUS成立于2004年，是全球语言和翻译行业的资源中心。该协会通过自己的数据云和质量评估服务为翻译行业提供相关的建议、工具、指标、基准和数据等。2016年，该协会发行了MTPE指南，旨在促进译后编辑模式的发展，提升译后编辑的质量和效率，并帮助该行业选择、培训高素质、高水准的译后编辑者。该指南指出，最基本的译后编辑质量评估准则有两条，一是机器生成的译文质量，二是对待翻译材料的最终质量预期，即译后编辑工作如何进行，取决于机器生成的原始译文质量及客户对译文质量的需求[9]。该指南把预期的最终译后编辑质量大致分为两个等级，一级为“goodenoughquality”，另一级为“humantranslationquality”。

　　在选择适用质量要求时，主要取决于目标读者或客户对最终译文质量的需求(包括最终译文的受众或使用目的)以及初始机器译文的质量。而对于初始机器译文质量的评判，若花费太多时间来确定其是否可用会得不偿失，降低效率。因此可在决策时间上加一些限制，若在一定时间内查看一个机器翻译片段(在熟悉源文本和目标文本之后)，发现无法轻松理解，那就舍弃机器译文。

　　Mesa-Lao在其实验分析中表明大部分测试者在初读机器译文上的停留时间为5～10秒左右，本文的译后编辑实践即以5～10秒原则来判断是应该纠正机器译文，还是应该删除并重新翻译低质量的片段[10]。同时针对最终译文质量的不同质量预期(是“goodenoughquality”还是“humantranslationquality”)以及机器生成译文的不同质量，也会采取不同的译后编辑策略，即进行LPE还是FPE。

　　三、基于TAUS指南进行的医学文本

　　译后编辑实践分析医学报告属于医学类文本，作为科技文本的一种，对MTPE模式的适应性较强，同时有海量翻译需求，对翻译效率要求较高。本文选取了TheNewEnglandJournalofMedicine上的医学报告来进行译后编辑实践，关于多例分析的报告，发布于2020年1月24日，全文约3000词。本文的目的是与医学工作者和研究者共享信息以及时有效共同应对并预防疫情，因为该流行病传染性强，传播速度快，加之如今交通非常发达，人员流动频繁，所以此类文本信息翻译非常注重准确性和时效性。

　　同时，此类文本译文目标受众为医学专家或工作者，他们仅需了解原文概述或要点，以帮助自己了解疾病相关信息，共同做好应对准备并寻找解决办法，所以可选择省时高效的LPE模式进行MTPE，使最终译文达到“goodenoughquality”的要求(下文提到的具体准则均针对“goodenoughquality”)。

　　本文所选择的机器翻译引擎为谷歌翻译，在实践过程中发现词汇错译、分词短语错译、从句错译以及段落错译、漏译问题较多，而此前一直被视为难点的被动语态问题已不明显。基于神经网络机器翻译强大的学习能力以及大数据的支撑，目前谷歌对被动句的处理表现较为良好，比如，笔者较早时期实践时发现的相关问题，在几个月之后再次用谷歌生成译文时，发现其已经对译文进行了改良，符合“goodenoughquality”的要求，可不再作为难点进行分析。其他相关案例具体分析如下。

　　(一)词汇错译

　　例1InlateDecember2019,severallocalhealthfacilitiesreportedclustersofpatientswithpneumoniaofunknowncausethatwereepidemiologicallylinkedtoaseafoodandwetanimalwholesalemarketinWuhan,HubeiProvince,China.…Wereporttheresultsofthisinvestigation,identifyingthesourceofthepneumoniaclusters,anddescribeanovelcoronavirusdetectedinpatientswithpneumoniawhosespecimensweretestedbytheChinaCDCatanearlystageoftheoutbreak.

　　综上，在本次实践过程中发现，相当一部分机器原始译文已符合TAUS指南中“goodenoughquality”的要求，不用做太多修改。且机器翻译质量在持续提高，在医学专有名词、术语以及被动语态方面均表现良好，但对一词多义的词汇识别还不够准确，问题较多，同时对长句、结构复杂的句子处理较为糟糕，如定语从句、分词结构等，转换时无法对句子语序进行调整，导致译文意思出现偏差，甚至在翻译段落时出现漏译现象。通过使用TAUS指南指导LPE的实践发现，指导性较强的是要求(1)(2)(4)，可根据此三条要求快速做出判断是否应对机器译文进行LPE。因本次实践中未遇到文化上不妥和侵犯信息，以及因本文为英译汉，汉语无拼写问题，所以要求(3)和(5)关于文化和拼写问题不用讨论。

　　要求(4)在应用时应注意尽可能多地保留机器初始译文是建立在机器译文质量较高的基础上，译者应迅速做出判断是否舍弃机器译文进行人工翻译，否则时间成本反而更高。要求(6)无需进行仅跟文风相关的改正和(7)不需仅为改善译文流畅度进行句子重组，就允许我们保留一些不符合中文语言习惯但句子含义表达正确的机器译文而无需进行修改，如例1仅修改了词汇错译的部分，其余均保留机器译文，节约了很多时间。通过使用TAUS指南，在进行译后编辑时会更有目的性，标准更加明确，可尽量避免做一些不必要的修改导致时间成本和人工成本的浪费。当然，TAUS指南仍有许多不足之处，依旧不够具体，有待在实践应用中继续完善。

　　四、总结

　　语言服务行业采用机器翻译译后编辑模式来提高翻译效率和翻译质量，也需要统一规范的标准来帮助评估工作质量并定价，同时好的规范还可以促进MTPE模式效率和质量的进一步提升，如本文按照TAUS指南对“goodenoughquality”的要求进行快速译后编辑时，目标更加明确和清晰，避免译后编辑过程中因标准不确定进行不必要的编辑，导致比纯人工翻译耗时更长的情况发生。

　　且此类医学报告信息交流的时效性尤为关键，因为流行病的传播快、传染性强，信息能够更快实现共享，就可能更早更有效地防控疾病更大范围传播，就可能帮助各国医务工作者共同合作更早研究出应对方法。因此，采取较高的机器初始译文质量加清晰的译后编辑要求(规则)可帮助译后编辑者们在更短时间内获得符合预期的译文。当然，本文所遵循的TAUS指南也依旧存在需要改善或进一步细化的地方，相信随着机器翻译译后编辑的发展，更加完善的规范会生成，机器翻译译后编辑模式也会更加成熟高效。

　　参考文献：

　　冯志伟.机器翻译与人工智能的平行发展[J].外国语,2018，41(6)：35−48.

　　[1]罗季美,李梅.机器翻译译文错误分析[J].中国翻译,2012，33(5)：84−89.

　　[2][3]刘玉强,贺子琼.医学英语的文体特征及其翻译策略[J].英语广场,2015(10)：35−36.冯全功,崔启亮.译后编辑研究:焦点透析与发展趋势[J].上海翻译,2016(6)：67−74,89.

　　[4]TAUS.Post-editinginPractice[EB/OL].(2010-03-10)[2020-08-20].

　　[5]ISO.ISO18587:2017Translationservices—Posteditingofmachinetranslationoutput—Requirements[S].ISO,2017.

　　[6]崔启亮.论机器翻译的译后编辑[J].中国翻译,2014，35(6)：68−73.

　　作者：仲晨阳，倪　蓉