国内或国外 期刊或论文

您当前的位置: 发表学术论文网经济论文》 水利信息知识图谱的构建与应用> 正文

水利信息知识图谱的构建与应用

所属分类:经济论文 阅读次 时间:2019-10-23 15:51

本文摘要:摘要:近年来知识图谱技术作为一种用于描述客观世界中概念、实例及其关系的新方法,得到了人们的广泛关注,利用知识图谱可以有效拓展搜索结果的广度。目前水利行业采用的基于关键字的搜索技术难以利用对象间关系进行信息检索。 为此,本文首先提出一种面向水

  摘要:近年来知识图谱技术作为一种用于描述客观世界中概念、实例及其关系的新方法,得到了人们的广泛关注,利用知识图谱可以有效拓展搜索结果的广度。目前水利行业采用的基于关键字的搜索技术难以利用对象间关系进行信息检索。

  为此,本文首先提出一种面向水利对象数据的知识图谱构建方法,用以实现水利信息知识图谱的构建。然后,提出基于推理规则的知识推理方法,利用隐藏在水利信息知识图谱中的知识实现智能数据检索。最后,将上述技术应用于水利领域,实现水利信息知识图谱构建与检索系统。通过该系统可以有效利用水利对象之间的关系,充分发挥水利信息资源的价值。

  关键词:水利信息资源,知识图谱,知识推理

  0引言

  水利信息资源是指水利部门或为水利部门采集、加工、处理的信息资源[1]。随着我国水利事业的不断发展,水利部门积累了大量的水利信息资源。但这些信息资源存在管理分散、服务目标单一、利用效率低下的问题,制约了水利信息化发展[2]。为此,水利部门通过对象建模将水利信息资源转换为水利对象数据,用以支持数据共享。

  这些水利对象数据对象种类众多,对象属性多样,对象间关系丰富。目前使用的基于关键字的搜索技术难以利用对象间关联关系(例如三峡枢纽水库与长江、太湖与苕溪之间的关联关系)进行信息检索与推荐。如何表达和利用水利对象及其关系,为用户提供全面准确的信息,成为亟需解决的问题。

  2012年,Google首次提出了知识图谱的概念[3],并成功应用于语义搜索上,提高了检索结果的质量。知识图谱本质上是一种叫做语义网络的知识库,即具有有向图结构的一个知识库,其中图的节点代表实例或者概念,而图的边代表实例/概念之间的各种语义关系[4]。知识图谱的出现,为人们提供了一种更好地组织、管理和理解海量信息的方法,同时,也成为知识检索、智能问答[5]、个性化推荐[6]等应用的基础。

  将知识图谱技术应用于水利领域,使用水利对象数据构建的水利信息知识图谱,可以利用水利对象间的关联关系,扩展检索结果的广度。本文针对水利对象数据,提出一种水利信息知识图谱的构建方法;并在此基础上实现了基于推理规则的知识推理,用以进一步挖掘隐藏在水利信息知识图谱中的知识;最后将上述技术应用于水利信息知识图谱构建与检索系统,实现了水利信息的智能检索与推荐。

  1相关研究

  1.1通用知识图谱

  通用知识图谱面向全领域,包含了大量的常识性知识,强调知识图谱的广度。目前国外在通用知识图谱领域已经有了许多成果,例如利用从维基百科中抽取的知识构建的DBpedia[7];整合维基百科、WordNet和GeoNames的知识所形成的Yago[8];利用从互联网中挖掘出的知识构建的NELL[9]以及ConceptGraph[10]、Freebase[11]、Wikidata[12]等。

  近年来,国内也出现了许多通用知识图谱,例如复旦大学发布的融合了百科数据及部分领域知识的CN_DBPedia[13];上海交通大学发布的包含中文维基百科、互动百科、百度百科三大百科数据的zhishi.me[14];基于中英文百科的XLore[15]以及百度的知心、搜狗的狗立方等。这些覆盖面广泛的通用知识图谱,可以为普通用户在智能问答、个性化推荐等方面提供更好的服务。

  1.2垂直领域知识图谱

  垂直领域知识图谱通常面向某一具体领域,更注重知识的深度和完备性,知识的粒度更细。例如通过从EMR信息中提取医疗事实,构建的乳腺肿瘤知识图谱[16];利用文物信息对构建的文物本体进行实例化操作,形成的文物知识图谱[17];从不同的软件资源中提取信息构建软件知识实例,形成的软件知识图谱[18]。

  从碳交易领域数据中抽取三元组,再将其转换为关联数据,构建的碳交易领域知识图谱[19]以及地理领域的GeoNames[20]、影视领域的IMDB[21]、音乐领域的MusicBrainz[22]等。这些面向某一特定领域的知识图谱有助于充分发挥领域数据的价值,同时为后续的智能化应用研究奠定基础。尽管目前出现了一些领域知识图谱,但在水利领域知识图谱技术还没有得到广泛关注,同时,这些领域知识图谱多停留在构建方面,对于知识图谱的应用还缺少考虑。

  2水利信息知识图谱构建

  水利对象数据中蕴含着大量水利信息知识,是构建水利信息知识图谱的重要数据来源。本文主要利用水利对象数据构建水利信息知识图谱,下面首先给出水利信息知识图谱相关概念的定义,再给出利用水利对象数据构建水利信息知识图谱的流程。

  2.1水利信息知识图谱的相关概念定义

  1(概念层GC)

  概念层是知识图谱的核心,描述了知识图谱的数据模式,规范了实例层中的事实。在水利信息知识图谱中,概念层GC=(C,PC,NC,RC),其中C表示图谱中的概念节点,如水库概念、河流概念;PC表示概念节点的属性边,如水库概念的属性边有工程等别、水库类型;NC表示属性值类型节点,如工程等别的属性值类型节点为整型、水库类型的属性值类型节点为字符型;RC表示概念节点和概念节点之间的关系,如水库概念与河流概念之间存在流入关系。定义2(实例层GE)实例层由一系列事实组成。

水利信息图示

  在水利信息知识图谱中,实例层GE=(E,PE,NE,RE),其中E表示图谱中的实例节点,如三峡枢纽水库、长江;PE表示实例节点的属性边,如工程等别、水库类型;NE表示属性值节点,如工程等别的属性值节点为1、水库类型的属性值节点为山丘水库;RE表示实例节点与实例节点之间的关系,如三峡枢纽水库与长江之间存在流入关系。

  定义3(水利信息知识图谱G)水利信息知识图谱G=(GC,GE,R),其中GC表示水利信息知识图谱的概念层;GE表示水利信息知识图谱的实例层;R表示GC中的概念节点与GE中的实例节点之间的关系,如水库概念与三峡枢纽水库之间存在实例概念间关系。同时每一个实例节点E只与一个概念节点C存在关系R。

  若2个实例节点E1和E2之间存在实例间关系RE,且E1、E2分别与概念节点C1、C2存在实例概念间关系R1、R2,则C1、C2之间也必然存在RC,且关系RC与关系RE有相同的名称。如长江与三峡枢纽水库之间存在流入关系,三峡枢纽水库与水库概念、长江与河流概念之间存在实例概念间关系,则水库概念与河流概念之间也存在流入关系。图1为部分水利信息知识图谱的结构。

  现有的水利对象数据存储在关系数据库中,主要由对象名录表、对象基础信息表和对象关系表这3类表组成,其中对象名录表保存了水利对象的对象名称、对象代码等信息;对象基础信息表保存了不同水利对象的特征信息;对象关系表记录了2个水利对象之间的关系。对象基础信息表与对象名录表相关联,对象名录表与对象关系表相关联。

  2.2水利信息知识图谱的构建方法

  本文的大多知识图谱都采用自顶向下的构建方法,依次构建知识图谱的概念层与实例层。下面将给出水利信息知识图谱概念层与实例层的具体构建方法。

  2.2.1概念层构建

  1)构建概念节点C。根据在编的《水利对象分类与编码总则》,结合水利对象数据,在领域专家的帮助下,确定概念节点C,例如水库概念节点。每一个概念节点对应一张对象名录表和一张对象基础信息表,如水库概念节点对应水库对象名录表和水库基础信息表。

  2)构建属性边PC和属性值类型节点NC。抽取概念节点对应的对象基础信息表中的字段及字段类型作为概念节点C的属性边PC和属性值类型节点NC。如抽取水库基础信息表中的工程等别字段作为水库概念的属性边,其对应的属性值类型节点则为工程等别字段的类型,即整型。

  3基于水利信息知识图谱的知识推理

  基于知识图谱的知识推理旨在基于已有的知识图谱,推理得到新的事实[23]。本文根据推理规则进行知识推理,挖掘隐藏在水利信息知识图谱中的水利知识。首先在已有的水利信息知识图谱的基础上,结合水利领域知识,定义推理规则。

  例如,在图谱的概念层中,河流概念与水库概念之间存在流入关系、水库概念和水电站概念之间存在属于关系,而在河流概念与水电站概念之间并无关系。但结合领域知识可知水电站与河流之间存在位于关系,因此,可以定义推理规则1,通过水库得到水电站所在的河流。再通过推理规则的实例化,将抽象的概念替换为具体的实例,通过推理即可得到隐藏在水利信息知识图谱中的知识。

  例如,在应用推理规则1获得三峡水电站所在河流时,先将推理规则中的水电站概念替换为三峡水电站,利用水利信息知识图谱对规则体中的事实进行匹配,得到具体的水库实例,即三峡枢纽水库。再将水库概念替换为具体的水库实例,重复上述步骤,即可得到具体的河流实例,也即三峡水电站所在的河流。通过知识推理可以实现对水利信息知识图谱的进一步挖掘。

  4系统实现与展示

  4.1系统总体架构

  本文利用水利对象数据,通过搭建水利信息知识图谱构建与检索系统,实现水利信息知识图谱的构建和水利信息的智能检索与推荐。水利信息知识图谱构建与检索系统按照本文提出的知识图谱构建方法构建水利信息知识图谱,并应用了基于推理规则的知识推理方法,实现了图谱检索和推理检索2种不同的知识检索方式。

  该服务系统主要分为3层:数据存储层、业务逻辑层和应用层。其中应用层主要由概念管理模块、知识构建模块、推理规则管理模块、知识检索模块、系统管理模块等组成。业务逻辑层利用水利对象数据,通过Jena构建水利信息知识图谱,并使用Fuseki实现对水利信息知识图谱的查询。数据存储层使用JenaTDB作为知识图谱的持久化工具。

  5结束语

  本文以水利对象数据为基础,提出了水利信息知识图谱构建方法;实现了基于推理规则的知识推理方法;并将上述技术应用于水利信息知识图谱构建与检索系统,构建了水利信息知识图谱,实现了智能数据检索与推荐。

  本文对水利领域知识图谱构建与应用进行了探索,但由于主要考虑使用水利对象数据构建水利信息知识图谱,对于互联网中非结构化文本的利用不充分,在未来的工作中,将进一步挖掘蕴含在互联网文本中的水利知识,添加到水利信息知识图谱中,用以丰富水利信息知识图谱。

  参考文献:

  [1]朱跃龙,许峰,冯钧,等.水利信息资源目录体系构建研究[J].水利信息化,2010(2):4-8.

  [2]成建国,冯钧,杨鹏,等.水利数据资源目录服务关键技术研究[J].水利信息化,2014(6):18-21.

  [3]AMITS.IntroducingtheKnowledgeGraph[EB/OL].(2012-05-01)[2019-03-15].

  [4]漆桂林,高桓,吴天星.知识图谱研究进展[J].情报工程,2017,3(1):4-25.

  水利论文投稿刊物:《水利信息化》全国性科技期刊。发布水利信息化建设政策、法规和标准等,介绍水利信息化建设经验和成果。读者对象主要是我国广大水文站网工作者,水利、水文、水电、交通、能源、地质、环保、化工、农林、航运、水资源和水利电力工程等有关部门的工人、工程技术人员和院校师生等。

转载请注明来自发表学术论文网:http://www.fbxslw.com/jjlw/20666.html