基于子词嵌入和相对注意力的材料实体识别

所属分类：经济论文阅读次时间：2021-07-23 17:33

本文摘要：摘要：在材料领域文献中准确识别命名实体有助于构建专业知识图谱、问答系统等。基于深度学习的命名实体识别(NER)技术已广泛应用于多种专业领域，然而面向材料领域的命名实体识别研究相对较少。针对材料领域命名实体识别中，可用于监督学习的数据规模小，实体

高端学术服务项目

　　摘要：在材料领域文献中准确识别命名实体有助于构建专业知识图谱、问答系统等。基于深度学习的命名实体识别(NER)技术已广泛应用于多种专业领域，然而面向材料领域的命名实体识别研究相对较少。针对材料领域命名实体识别中，可用于监督学习的数据规模小，实体词复杂度高等问题，提出使用大规模非结构化的材料领域文献数据，训练基于一元语言模型(ULM)的子词嵌入分词模型，充分利用单词结构蕴含的信息，增强模型鲁棒性。并提出以BiLSTM-CRF为基本模型，结合能够感知方向和距离的相对多头注意力机制(RMHA)的实体识别模型，以提高对关键词的敏感程度。BiLSTM-RMHA-CRF模型结合ULM子词嵌入方法，相比于BiLSTM-CNNs-CRF和SciBERT等模型，在固体氧化物燃料电池(SOFC)命名实体识别数据集上的MacroF1值提高了2-4个百分点，SOFC细粒度实体识别数据集的MacroF1值提高了3-8个百分点。实验结果表明，基于子词嵌入和相对注意力的识别模型能够有效提高材料领域实体的识别准度。

　　关键词：命名实体识别;子词嵌入;相对注意力;深度学习;材料领域

　　0引言

　　命名实体识别(namedentityrecognition，NER)的目标是在非结构化的文本中按照预先定义的类别信息，提取并分类出具有特定意义的命名实体信息，如人名、机构、地点等。命名实体识别技术可以用于如知识图谱构建，问答系统，机器翻译等自然语言处理任务。专业领域的命名实体识别对于机器阅读理解专业领域文献和构建专业知识图谱具有重要作用，精准的进行专业领域的命名实体识别有助于减少科研工作量，提高查阅效率，并能够辅助提高专业领域机器翻译，自动问答等上游自然语言处理系统的水平。

　　近几年对于命名实体识别的研究大多基于深度学习，目前适用于命名实体识别的常用深度学习模型与方法有条件随机场(ConditionalRandomFields，CRF)[1]，卷积神经网络(ConvolutionalNeuralNetwork，CNN)[2]，长短期记忆神经网络(Long-ShortTermMemory，LSTM)[3]，门控循环网络(GateRecurrentUnit，GRU)[4]以及自注意力机制[5]等。

　　Ma等[6]人结合双向长短期记忆神经网络(Bi-directionalLong-ShortTermMemory，BiLSTM)、CNN与CRF提出了端到端的序列标注模型，在CoNLL-2003数据集上达到91.21%的F1值;Chiu等[7]人提出使用双向LSTM和CNN编码层进行命名实体识别，并分别在CoNLL-2003和OntoNotes数据集上的F1值达到91.62%和86.28%;Liu等[8]人提出使用LM-LSTM-CRF(LanguageModelLong-ShortTermMemoryConditionalRandomFields)模型方法将CoNLL-2003数据集的F1值提高到91.71%;Dhrisya等[9]使用双向GRU结合自注意力机制在OntoNotes细粒度实体识别任务上达到较高水平。

　　通用领域命名实体识别，其精准度已达到较高水准，目前命名实体识别方向的研究大多基于专业领域。杨维等[10]提出基于条件随机场的命名实体识别算法，在电力服务数据集上具有较高准确率;李博、张华丽等[11-12]分别采用TransformerCRF和BiLSTM-CRF模型对中文电子病历进行实体识别，能够准确识别症状、治疗等五类实体;张心怡等[13]提出了联合深度注意力网络，在煤矿领域命名实体识别精准度和识别效率都有较大的提升;许力等[14]结合CNN、BiLSTM、图卷积神经网络，并融合词向量和依存句法分析特征进行生物医学实体识别，在多个数据集上表现出色。

　　材料领域的自然语言处理研究相对贫乏，其中与本文研究相关的有：Mysore等[15-16]人提出了自动提取材料科学文献结构化信息的系统，并且发布了大规模材料领域语料库;Mrdjenovich等[17]构建了材料科学领域的知识图谱propnet;Friedrich等[18]发布了固体氧化物燃料电池(solidoxidefuelcell，SOFC)命名实体识别数据集，并使用SciBERT模型达到81.5%的MacroF1值。

　　识别未登录词是命名实体识别任务的关键，字符嵌入一般用于解决传统词嵌入，如word2vec，存在的未登录词(out-ofvocabulary，OOV)问题，同时还能反映出单词字符序列蕴含的形态学信息。Gajendran等[19]将词表示和字符表示作为输入，使用三重BiLSTM-DRNN模型进行命名实体识别。Cho等[20]同时使用BiLSTM和CNN对单词字符进行编码，得到字符嵌入并与词嵌入向量结合作为模型输入，在生物医学命名实体识别中达到较高水平。

　　字符嵌入能够有效提高命名实体识别模型的识别准度，但其缺点也较为明显：1)需要额外的字符级编码层;2)使用CNN作为编码层，其对于相邻字符的感受野相对固定，而使用BiLSTM编码层，又不能充分挖掘单词词缀之间的关联信息。本文采用子词嵌入代替字符嵌入，同时使用大规模材料领域数据，对子词划分模型进行预训练，将得到的子词分词结果再进行词向量训练，同word2vec结合作为命名实体识别模型的输入。

　　自注意力机制常用语多种自然语言处理任务，命名实体识别中加入自注意力机制能够提高模型的特征提取能力和上下文信息的关注程度。但Transformer结构由于其在注意力计算时使用了归一化处理，且其位置编码不具备方向性，在命名实体识别任务上的表现不佳[21]。

　　本文采用相对多头自注意力机制代替传统的自注意力机制，作为命名实体识别模型的编码层。本文的主要内容有：1)使用大量非结构化材料领域文献数据，训练基于一元语言模型(UnigramLanguageModel，ULM)的分词模型，并进一步训练出适用于材料领域数据的子词嵌入，并将其用于材料领域命名实体识别任务。

　　2)在BiLSTM-CRF模型的基础上，使用能够感知单词方向和距离的相对注意力机制(relativemulti-headattention，RMHA)，用以增强模型对关键词的感知能力。3)在SOFC数据集的命名实体识别和细粒度实体识别任务中，使用常用模型与BiLSTM-RMHA-CRF模型进行多组对比实验，表明ULM子词嵌入和基于RMHA的深度学习模型有助于提高材料领域命名实体识别的精准度。

　　1子词嵌入和RMHA实体识别网络

　　使用BiLSTM-CRF模型结合相对多头注意力机制对材料领域数据进行命名实体识别，同时使用预训练词嵌入和子词嵌入提高模型对于未登录词问题的辨识能力。

　　1.1BiLSTM-CRF模型

　　BiLSTM后接CRF解码层是序列标注任务的常用模型。BiLSTM通过整合前向和后向传递的信息，保证每个隐层都接收到来自其他隐层的信息。CRF解码层可以通过状态转移矩阵来实现相邻标签的约束。本文使用BiLSTM-CRF模型为基本实验模型，在其基础上加入ULM子词嵌入作为输入，并进一步使用基于相对位置编码的相对注意力机制作为材料领域命名实体识别模型的编码层，用以改进模型对于关键词和相关实体的关注程度。

　　1.2基于概率模型的子词嵌入

　　1.2.1字符嵌入和子词嵌入

　　材料领域数据集中存在大量单频词和低频词，传统的词向量表示方法，如word2vec[22]，无法很好地处理专业名词，化学式等未知或者罕见词汇，导致其命名实体识别难度较高。目前常用CNN编码层获得单词的字符级表示，后将其与预训练好的词嵌入进行组合参与训练。子词嵌入把单词划分为长度不一的字符串后对其向量表示，相较于字符表示蕴含更加丰富的形态信息，并可以使用大规模数据集进行预训练词向量。BPEmb[23]利用字节对编码(BytePairEncoding，BPE)数据压缩算法构建子词词表，使分词粒度在单词和字符之间，从而更高效率的解决未登录问题。BPEmb划分的子词只能是单一结果，而且对于子词序列的划分结果没有量化的评判标准[24]。

　　2实验设置

　　2.1数据集

　　ULM子词嵌入概率分词模型和预训练子词向量使用网络采集的14万条原始材料领域文献数据。命名实体识别实验采用SOFC命名实体识别数据集和SOFC细粒度实体识别数据集[18]。SOFC命名实体识别数据集该数据集包含MATERIAL，VALUE，DEVICE，EXPERIMENT四种类型的标签，采用BIO标注方式。其中MATERIAL类除了材料名外还包括诸如“La0.75Sr0.25Cr0.5Mn0.5O3”的化学式;VALUE类包括实验参数的数值和范围符号，另外还包含描述程度的副词，如“above750℃”，进一步提高了识别命名实体的复杂度;EXPERIMENT类为标志实验行为的动词。

　　SOFC细粒度实体识别数据将四类实体进一步细分为19个子类别。该数据集相较于通用领域数据集，未登录词、单频词和低频词较多，实体形态复杂多样。且不同于通用领域命名实体识别数据集中，人名、地名、组织名等本身蕴含的形态学信息较少，实体词之间的关系模糊，材料领域数据集中的实体间存在较大的形态学关联性，如化学式之间的关联信息。

　　2.2数据预处理

　　本文使用基于正则模板的数据增强[25]，将大量正则模板应用于模型训练，旨在让模型学习到更多上下文信息，模糊实体对于特定上下文的依赖关系，达到提高识别未登录词和低频词的精准度的目的。本文涉及的所有实验均采用正则模板的数据增强方法对训练集数据进行预处理后作为输入。正则模板数据增强见图5。

　　3实验结果与分析

　　3.1综合实验结果

　　实验使用加入ULM子词嵌入的BiLSTM-RMHA-CRF模型与现有模型在SOFC命名实体识别数据集上进行对比，对比模型包括BiLSTM-CNNs-CRF模型[6]、LM-LSTM-CRF模型[8]、BiGRU-SelfAttn模型[9]、SciBERT模型[18]、Char-LevelCNN-LSTM模型[20]。

　　SOFC命名实体识别数据集上的设备(device，DEV)、实验(experiment，EXP)、材料(material，MAT)、参数(value，VAL)四种实体的F1值和平均MicroF1值、MacroF1值结果以及SOFC细粒度实体识别数据集的平均MicroF1值、MacroF1值结果。结果表明相较于其他模型，基于相对注意力机制和ULM子词嵌入的模型能够提高对命名实体的辨别能力。

　　BiLSTM-CNNs-CRF模型使用字符级CNN对输入进行编码，得到字符嵌入，再将其输入BiLSTM-CRF模型进行序列标注，其卷积操作，在一定程度上相当于能够提取固定宽度的子词信息。LM-LSTM-CRF模型使用字符级LSTM作为字符嵌入模型，将字符序列编码为词向量用以命名实体识别训练。

　　Char-LevelCNN-LSTM模型结合了上述两个模型的字符嵌入方法。基于字符嵌入的词嵌入算法在SOFC命名实体识别和细粒度实体识别数据集标签尚佳，但由于字符嵌入词表规模过小且蕴含信息有限，无法进行预训练，对于不同的单词输入，即使拥有相同的子词特征也不能保证得到相近的向量表示;而预训练子词嵌入可以确保具有相同子词特征的单词，其词嵌入获得的信息量相同。

　　BiGRU-SelfAttn模型使用了结构更加简单的GRU作为特征编码层，并结合自注意力机制作为命名实体识别模型，并直接将单词作为输入进行训练，其效果相对于其他模型表现有限。SciBERT模型使用了大规模科学领域文献预训练的BERT模型作为编码层，并结合BPEmb子词嵌入作为输入，但使用预训练模型进行微调，并不能充分利用子词嵌入提供的辅助信息。模型对比实验结果表明，基于ULM预训练子词嵌入和相对注意力的命名实体识别模型相较于其他模型，在材料领域命名实体识别任务中表现更加出色。

　　3.2消融实验

　　本文针对BiLSTM-RMHA-CRF模型中的RMHA特征编码层以及ULM词嵌入特征进行消融实验，以度量ULM词嵌入方法以及相对注意力机制对于材料领域命名实体识别准度的提升作用。结果表明提出的BiLSTM-RMHACRF模型中，相对注意力机制和ULM子词嵌入对材料领域命名实体识别都有不同程度的提升作用。

　　在仅使用BiLSTM-CRF模型时，由于其模型特征编码性能有限，且从词嵌入获取到的信息较少，而材料领域文献中的未登录词较多，导致模型的识别性能不佳。加入相对注意力机制后，提高了模型对于关键词的关注度，命名实体识别性能有一定程度的提升。加入ULM子词嵌入，使模型能够获取到单词的形态学信息，并能够辨别单词之间的关联作用，其性能有较大提升，表明基于概率模型的子词嵌入确实能够有效解决未登录词问题，并能提高模型对于材料领域词汇间关联关系的辨识性能。

　　材料科学评职知识：新型材料研发论文发表期刊

　　4结语

　　本文针对材料领域命名实体识别数据规模小，识别难度高等问题，提出了BiLSTM-RMHA-CRF模型方法，同时使用基于概率模型的ULM子词嵌入作为模型输入，以提高模型对于材料领域命名实体的辨别能力。通过在多种适用于命名实体识别的模型上进行对比实验，证明该方法可以有效提高模型的普适性和鲁棒性，在MicroF1、MacroF1两种评价指标上都有较大的提高。

　　并设置了特征编码层对照和词嵌入对照实验，验证了相对注意力机制和预训练ULM子词嵌入对于命名实体识别模型的提高效用，表明相对注意力机制和ULM子词嵌入对于材料领域命名实体识别确有较大的提升作用。但此算法的一处不足是没有解决样本分布不均带来的模型偏侧性问题，不同类别的实体，其识别准度差异较大，检测能力也有待提升，可以将其作为进一步的研究方向。

　　参考文献(References)

　　[1]LaffertyJ，MccallumA，PereiraFCN.Conditionalrandomfields：probabilisticmodelsforsegmentingandlabelingsequencedata[C]//Proceedingsofthe2001InternationalConferenceonMachineLearning.NewYork：ACM，2001：282-289.

　　[2]KimY.Convolutionalneuralnetworksforsentenceclassification[C]//Proceedingsofthe2014ConferenceonEmpiricalMethodsinNaturalLanguageProcessing，Stroudsburg，PA：AssociationforComputationalLinguistics，2014：1746-1751.

　　[3]HochreiterS，SchmidhuberJ.Longshort-termmemory[J].NeuralComputation，1997，9(8)：1735-1780.

　　作者：韩玉民，郝晓燕*