基于中英文单语术语库的双语术语对齐方法

所属分类：教育论文阅读次时间：2021-12-20 11:09

本文摘要：摘要:双语术语对齐库是自然语言处理领域的重要资源，对于跨语言信息检索、机器翻译等多语言应用具有重要意义。双语术语对通常是通过人工翻译或从双语平行语料中自动提取获得的。然而，人工翻译需要一定的专业知识且耗时耗力，而特定领域的双语平行语料也很难具有较大规

高端学术服务项目

　　摘要:双语术语对齐库是自然语言处理领域的重要资源，对于跨语言信息检索、机器翻译等多语言应用具有重要意义。双语术语对通常是通过人工翻译或从双语平行语料中自动提取获得的。然而，人工翻译需要一定的专业知识且耗时耗力，而特定领域的双语平行语料也很难具有较大规模。但是同一领域中各种语言的单语术语库却较易获得。为此，提出一种基于两种不同语言的单语术语库自动实现术语对齐，以构建双语术语对照表的方法。该方法首先利用多个在线机器翻译引擎通过投票机制生成目标端“伪”术语，然后利用目标端“伪”术语从目标端术语库中检索得到目标端术语候选集合，最后采用基于mBERT的语义匹配算法对目标端候选集合进行重排序，从而获得最终的双语术语对。计算机科学、土木工程和医学三个领域的中英文双语术语对齐实验结果表明，该方法能够提高双语术语抽取的准确率。

　　关键词:双语术语;单语术语库;术语对齐;语义匹配

语言术语

　　引言

　　术语是专业领域中概念的语言指称(GB/T10112—959)，也可定义为“通过语言或文字来表达或限定专业概念的约定性语言符号”[1-2]。术语通常由一个或多个词汇单元组成，包含了一个领域的基本知识。随着全球化进程的快速发展，不同语言间的知识、技术交流的需求愈加迫切和频繁。而术语作为知识的核心载体，其相互翻译却成为各国间知识、技术交流的最大障碍之一[3]。

　　因此，研究双语术语自动抽取方法对于双语术语词典构建、跨语言信息检索和机器翻译等应用都具有十分重要的实用价值。人工翻译构建是获得高质量双语术语的一种可靠方式，但是人工翻译需要一定的专业知识且耗时耗力。为此，许多研究者提出了从不同资源中抽取双语术语的方法，包括基于平行语料库的双语术语抽取[4-8]和基于可比语料库的双语术语抽取[9-10]。

　　基于平行(可比)语料库的双语术语自动抽取通常分为两个步骤，首先通过单语术语抽取分别得到两个语言的单语术语候选表，而后通过计算候选术语在平行(可比)语料中的共现概率或基于双语词典计算术语对的翻译概率，其中概率高于预设阈值的候选结果将抽取作为双语术语。

　　由于平行语料的文本是互为译文的关系，基于平行语料库的双语术语抽取能够获得较高的准确率。但是对于众多语言对，尤其是低资源语言，特定领域的双语平行数据非常稀缺且难以获取。此外，受限于可比语料库的规模和质量，从其中抽取双语术语对的准确率往往较低。相比于双语平行(可比)语料库，同一领域中不同语言的单语术语库更容易获得。可以是已经构建好的单语术语库，也可以利用现有的单语术语抽取方法[11-14]对单语语料库进行自动抽取获得。

　　基于此，本文提出一种从两种不同语种的单语术语库中自动进行术语对齐以抽取双语术语对的方法。该方法仅利用单语术语本身的信息，而不依赖于上下文信息，在获取不同语言同一领域的单语术语库后，能够迅速抽取双语术语对。具体地，对于一个源端术语，该方法首先利用多个在线机器翻译引擎通过投票机制生成目标端“伪”术语，然后通过目标端“伪”术语与目标端术语库中的术语之间的文本相似度筛选出目标端术语候选集合，最后通过基于mBERT(multilingualbidirectionalencoderrepresentationfromtransformers)[15]的语义匹配模型对源端术语和目标端术语候选集的语义相似度重排序，从而获得最终的双语术语对。

　　本文提出的方法在计算机科学、土木工程和医学三个领域的中英单语术语库上进行了实验，实验结果表明本文所提方法能够显著地提高双语术语抽取的准确率。本文的组织结构如下:第1部分介绍双语术语抽取的相关工作，第2部分对本文的任务进行形式化描述，第3部分对本文所提出的面向单语术语库的双语术语对齐方法进行详细介绍，第4部分介绍本文所使用的数据集和实验设置，并给出详细的实验结果和分析，最后进行总结和展望。

　　1相关工作

　　1.1单语术语抽取

　　自动术语抽取是从文本集合中自动抽取领域相关的词或短语，是本体构建、文本摘要和知识图谱等领域的关键基础问题和研究热点[11]。根据单语术语抽取的原理，可以将方法分为三类:基于规则的方法[12，16-21]，基于统计的方法[22-27]和基于机器学习的方法[14，28-31]。其中，基于机器学习的方法又可以细分为使用传统机器学习的方法和使用神经网络的方法。不同的术语抽取方法可以相互融合集成，使用多种策略以提升性能。

　　1.2双语术语抽取

　　根据所使用语料的不同，双语术语抽取可以分为基于平行语料库的双语术语抽取[3-8，32-33]和基于可比语料库的双语术语抽取[9-10，34-35]。其中，双语平行语料由互为翻译的源语言文本和目标语言文本组成，而可比语料则是由不同语言同一主题的非互译单语文本组成。双语术语对齐的基本思路是术语及其翻译往往出现在相似的上下文中[36]。从抽取方法上，双语术语抽取以单语术语抽取为基础，也可以划分为两种方法:对称策略抽取法，即先分别对两种单语语料进行单语术语抽取，然后对单语术语抽取的结果进行双语术语对齐;非对称策略抽取法，即使用一种语言单语术语抽取的结果在另外一种语言单语语料上查找对应的术语翻译。

　　在基于平行语料库的双语术语抽取上，孙乐等[4]根据词性规则进行单语术语抽取，然后融合句子字符长度信息计算翻译概率，从而抽取双语术语对。孙茂松等[3]使用短语对齐、组块分析相结合的方法在双语语料上进行候选术语的抽取。张莉等[37]在孙乐等[4]的研究基础上将术语语序位置信息引入术语对齐。刘胜奇等[38]提出使用多策略融合Giza++术语对齐方法，使用多种关联和相似度提升术语对齐的对准率。在基于可比语料的双语术语抽取上，Rapp等[39]和Tanaka等[40]通过建立源语言文本与目标语言文本的共现矩阵并进行矩阵相似度计算来抽取翻译等价对。

　　Yu等[41]通过句法分析获得细粒度的上下文信息，从而抽取中英双语词语对。Lee等[42]使用一种基于EM框架结合统计学、词法、语言学、上下文和时空特征的无监督混合模型来从可比语料中抽取双语术语。不同于前述工作，本文主要关注的是从两种语言的单语术语库中自动进行术语对齐，从而抽取双语术语对。单语术语库可以是已经构建好的单语术语库，也可以利用现有的单语术语抽取方法进行构建。该方法仅利用单语术语本身的信息，而不依赖于上下文信息，在获取不同语言同一领域的单语术语库后，能够迅速抽取双语术语对。

　　1.3预训练模型词向量

　　深度学习给自然语言处理领域带来了突破性的变革，其中一个关键的概念就是词嵌入。作为最常见的文本特征表示方法之一，词嵌入已被广泛应用于各种自然语言处理任务。分布式词向量是利用神经网络模型来学习单词的共现性，通过无监督学习得到能够表达词语语义信息的低维度向量。

　　最近，许多预训练模型通过不同的策略提升了语言表征能力。其中，Devlin等[15]提出了BERT模型。BERT模型的基础是自注意力(self-attention)机制，利用自注意力机制可以获取双向的上下文信息，通过在海量的无监督语料库上训练获得句子中每个单词的上下文表示信息。BERT在多种自然语言处理任务上取得了最优的研究成果[15，43]。

　　2任务定义

　　给定源端术语，双语术语对齐任务旨在从目标端术语集合中找到其对应的翻译，其形式化定义如下:给定源语言S中的一组术语集合QS，和目标语言T中一组术语集合QT，QS和QT是同一领域(如医学领域)不同语言的术语集合，本文的目标是为每个源端术语wS∈QS，从目标端术语集合QT中找到对应的翻译wT，从而获得双语术语对wS，wT()。

　　此处将双语术语对wS，wT()抽取的问题转换为跨语言文本相似度度量任务。为了减小目标端术语比对范围，对于源端术语wS，首先利用多个在线机器翻译引擎通过投票机制生成目标端“伪”术语w'T，然后利用w'T和文本相似度算法对目标端术语集合QT进行筛选，获得目标端术语候选集合QcandT，最后对wS与候选集QcandT中的候选术语进行语义相似度重排序，选取相似度最高的作为最终术语翻译对。

　　3本文方法

　　本文提出一种从两种不同语种的单语术语库中自动进行术语对齐以抽取双语术语对的方法。该方法采用“生成—筛选—比较”的方式，共分为三个步骤：(1)目标语言伪术语生成，即利用多个在线翻译引擎通过投票机制生成目标语言伪术语;(2)目标语言术语候选集生成，通过最长公共子串(longestcommonsub-sequence，LCS)算法[43]对目标语言术语库进行筛选，生成目标语言术语候选集;(3)基于语义相似度的重排序，通过预训练语言模型BERT对目标语言术语候选集进行基于跨语言语义相似度的排序，得到得分最高的目标端术语，生成最终的双语术语对。

　　3.1目标端伪术语生成

　　机器翻译就是实现从源语言到目标语言转换的过程[44]。随着深度学习和人工智能技术的快速发展，机器翻译技术得到了快速发展，包括谷歌、百度、有道、搜狗等在内的许多互联网公司都已经部署了各自的在线机器翻译引擎。因此，本文借助已有的机器翻译引擎作为不同语言之间的桥梁，将源语言术语转换为目标语言表述。

　　由于术语翻译的准确性和专业性要求较高，通过机器翻译引擎生成的目标语言表述虽然一定程度上能够表达源语言术语的含义，但是不能确保是完全正确的目标语言术语，本文将其定义为“目标端伪术语”。这些源语言术语对应的目标端伪术语需要和目标端术语库进行进一步的相似度计算才能最终确定其对应的目标端术语。给出了中文术语(源语言)、机器翻译引擎翻译结果以及标准的英语术语(目标语言)的示例。

　　利用多个在线翻译引擎对源语言术语进行翻译，生成多个目标端表述后，须从中选择一个合适的表述作为源语言术语对应的目标端伪术语。本文采用多数投票法选择最终目标端伪术语。多数投票法以单个模型的预测结果为基础，采用少数服从多数的原则确定模型预测的结果。

　　3.2目标端候选集生成

　　在获得目标端伪术语的基础上，若直接利用目标端伪术语与目标端术语集合中的每个目标端标准术语进行比对，则会存在噪声多、时间成本高的问题。因此，本节将利用目标端伪术语对目标端术语集合进行筛选，生成目标端候选集，从而缩小标准术语的搜索空间。具体而言，通过目标端伪术语和目标端术语集合中的每个术语进行相似度计算，这里采用LCS算法，保留相似度得分最高的K个术语形成候选集。

　　3.3基于语义相似度的重排序

　　由于LCS算法只考虑了词形上的相似关系，而忽视了语义层面的相似关系，因此即便LCS相似度得分最高，在很多情况下依然无法获取正确的目标端术语。同时，使用机器翻译系统生成目标端伪术语的过程也存在一定程度上的语义失真，因此，本文提出同时利用源语言术语和目标端伪术语对目标端候选集进行语义层面的相似度计算，利用源语言术语信息进一步增强目标端术语选择的性能。

　　4实验与结果

　　本文在计算机科学、土木工程和医学三个领域进行了中英双语术语对齐的实验。

　　4.1数据集构造

　　为了进行双语术语对齐的实验，本文利用维基百科构造了三个领域的中文术语库和英文术语库，包括计算机科学、土木工程和医学。本文利用PetScan工具从维基百科上获取符合特定条件的标题列表，例如，使用“Language=en&Depth=4&Categories=Computerscience”获取计算机科学领域下的英文条目。在获取对应语言和领域下的标题条目后，经过简单的规则处理，比如去掉纯数字的条目、语言不正确的条目等，将过滤之后的标题条目作为对应领域的单语术语库。在获取单语术语库后，由于在维基百科上，中文的页面数远小于英文的页面数，因此，本文遍历中文单语术语库，利用维基百科的跨wiki链接(Interwikilinks)来获取对应的英文术语，从而获得双语术语库。

　　4.2实验设置

　　在线翻译引擎:在实验过程中，本文采用了5个在线翻译引擎将中文单语术语库中的术语翻译成英文“伪”术语:谷歌翻译、百度翻译、有道翻译、搜狗翻译以及Bing翻译。mBERT:在谷歌发布的多语言预训练模型BERT-Base、MultilingualCased基础上进行微调，数据采用4.1节所述方式进行构建，batch大小设为32，训练轮数设为30，输入序列最大值为100，初始学习率为0.00005，其余保持默认参数。

　　4.3实验结果

　　在计算机科学、土木工程和医学三个领域上进行了中英双语术语对齐的实验。通过该实验结果，可以看出以下信息。(1)当前机器翻译引擎对于术语的翻译性能还有待提升。利用5个在线翻译引擎通过投票机制生成的英语术语在计算机科学、土木工程和医学领域上仅有43.34%/39.48%/46.23%的正确率。这也说明了自动构建双语术语库对于提升翻译系统的性能有着重要意义。(2)多语言BERT在中英语义相似度计算上表现很差(基线系统2:6.09%/3.68%/2.87%)，其性能远低于基线系统1，这可能是由于多语言BERT没有在任务对应的双语术语数据上微调，中英文的语义空间对齐较差。

　　而多语言BERT直接对英语伪术语和英文术语进行语义相似度计算(基线系统3)，其性能显著优于基线系统2，这表明多语言BERT在单一语言上能较好地表征语义相似度。(3)本文所提方法在三个领域的双语术语对齐上均显著优于基线系统，该方法以基线系统1生成的结果作为输入，使用LCS算法与英语标准术语库比对，返回得分最高的10个英语术语组成候选集，最后利用mBERT进行语义相似度重排序，实验结果表明所提方法能够显著提升双语术语对齐的性能，从而得到更好的双语术语库。

　　4.4消融分析

　　基本模块分析:本文所提方法包含三个步骤:(1)目标语言伪术语生成，即利用多个在线翻译引擎通过投票机制生成目标语言伪术语;(2)目标语言术语候选集生成，通过文本相似度算法LCS对目标语言术语库进行筛选，生成目标语言术语候选集;(3)基于语义相似度的重排序，通过预训练语言模型mBERT对目标语言术语候选集进行语义相似度重排序，得到得分最高的目标端术语，生成最终的双语术语对。

　　5结语

　　本文提出了一种面向两种语言单语术语库的双语术语对齐方法，该方法由“生成—筛选—比较”三步组成，首先利用多个在线机器翻译引擎通过投票机制生成目标端“伪”术语，然后利用目标端“伪”术语从目标术语库中检索得到目标端术语候选集合，最后采用基于mBERT的语义匹配算法对目标端候选集合进行重排序，从而获得最终的双语术语对。

　　该方法可以仅仅利用单语术语库本身的信息抽取双语术语对。在计算机科学、土木工程和医学三个领域上的中英双语术语对齐实验结果表明，与基线系统相比，所提方法能够有效地提高双语术语抽取的性能。在未来的研究中，需要进一步探索如何利用术语库之外的信息提升双语术语对齐的质量，如利用互联网大规模文本信息，学习更加准确的融合上下文信息的术语表示。

　　参考文献

　　[1]冯志伟.现代术语学引论[M].北京:语文出版社，1997.

　　[2]杜波，田怀凤，王立，等.基于多策略的专业领域术语抽取器的设计[J].计算机工程，2005(14):159-160.

　　[3]孙茂松，李莉，刘知远.面向中英平行专利的双语术语自动抽取[J].清华大学学报(自然科学版)，2014，54(10):1339-1343.

　　[4]孙乐，金友兵，杜林，等.平行语料库中双语术语词典的自动抽取[J].中文信息学报，2000(6):33-39.

　　[5]HUANGGP，ZHANGJJ，ZHOUY，etal.Asimple，straightforwardandeffectivemodelforjointbilingualtermsdetectionandwordalignmentinsmt[C]//ProceedingsoftheFifthConferenceonNaturalLanguageProcessingandChineseComputing&TheTwentyFourthInternationalConferenceonComputerProcessingofOrientalLanguages.Kunming，China，2016:103-115.

　　作者：向露1，2周玉1，2，3宗成庆1，2