面向非结构化数据的知识图谱构建与表示技术研究

来源 :国防科技大学 | 被引量 : 2次 | 上传用户:quanminyingyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着万维网和语义Web技术的不断更新发展,越来越多的人开始从互联网上获取信息和知识。基于人们对知识的渴望,大量的搜索引擎、情报分析、自动问答系统被设计开发,并被用来为人们提供信息上的需求。但近年来,随着数据规模的急剧增加,传统搜索引擎很难找寻精准的问题答案以及答案背后的知识体系。因此,以谷歌知识图谱为代表的一系列知识图谱应运而生,其主要目的是为用户提供结构化的知识,而不是单独的信息点。知识图谱可以极大的提高知识查询的精度,延伸知识获取的边界和范围,因此受到工业界和学术界的广泛关注。但现阶段,知识图谱还存在两个明显的不足:(1)通用知识图谱的覆盖范围较广但深度不够,数据稀疏性的问题严重,大量的知识还隐藏在非结构化的文本中;(2)知识表示模型比较单一,经典的符号表示模型很难描述知识图谱中实体关系的语义信息。为了更好的解决上述两个突出问题,提高知识图谱的鲁棒性和知识表示能力。本文重点研究四个方面的技术问题:网页信息抽取技术、实体关系联合抽取技术、实体链接技术以及知识表示技术。为了提取非结构化文本中的知识,首先要获取非结构文本,而其最重要来源就是海量的互联网文本数据。因此如何对互联网中的网页进行解析,进而获取纯文本信息是本文所要研究的重点内容。传统的信息提取技术通过配置模板等手段来进行网页解析,其存在效率低、可扩展性差的问题。本文提出了一种基于标题的网页信息抽取模型TWCEM,其通过标题特征来提取和校对每个网页的内容,TWCEM模型可以有效地过滤噪声并更准确地定位正文内容位置,进而提高模型的提取性能和并有效降低时间成本。完成信息抽取之后,需要对文本中的实体关系进行抽取,传统串联抽取手段存在信息割裂和误差传递等问题,为了解决上述问题,本文提出了一种基于迁移学习的实体关系联合多三元组抽取模型TME,该模型能够考虑实体关系之间的相关性,并很好地发现语句中包含的多个三元组,提高非结构化知识抽取的可行性和效能。通过实验证明,TME在实体关系联合抽取上的性能明显高于其他抽取模型。完成实体关系联合抽取之后,需要将抽取的实体指称项链接到已有的知识图谱当中,也就是实体链接,传统的实体链接方法利用局部特征的方式来进行实体链接,链接的精度和准确率还有待提高。本文提出了一种基于实体结构特征的实体链接模型方法Elesa,该模型通过结合实体的上下文特征、结构特征以及实体ID特征来共同表示实体特征向量;此外,模型还通过在Bi-LSTM模型上添加注意力机制来提取实体的指称项和上下文特征之间的关系,这种方法的优势在于可以同时捕获文本语义特征和位置特征。通过在多个数据集和其他实体链接模型进行对比,验证了Elesa模型在实体链接上较好的准确率和精度,明显优于其他同类算法。完成知识图谱的构建之后,为了提高知识图谱的覆盖范围并提高其中包含三元组的精度,需要通过知识表示模型进行知识图谱推理和补全。传统的表示模型存在算法复杂度较高、实体关系预测精度较低等问题。为了解决上述问题,本文提出了基于实体特征组合的大规模知识图谱表示技术CombinE,模型从两个互补的角度来探索实体特征——加法和减法模型。在加法模型中,任意一个关系的特征用其所属所有实体对的共享特征来表示。为了体现这些实体对的不同之处,运用减法模型来关注实体个性特征,并将关系作为抵消头尾实体间歧义和保留重要特征的通道。通过实验对比分析发现,CombinE以更低的时间和存储空间复杂度超越了其他表示模型,并达到了最优的表示效果。通过本文设计的知识图谱总体框架以及知识图谱构建与表示技术,能够为非结构化知识图谱的构建和表示方法提供一种可行的解决方法,也能够为实际的知识图谱构建提供一种可行的技术方案。
其他文献
主板厂商华硕的业务拓展脚步好像从未停止过,不断将它的触角延伸到IT业的各个领域。产品线日趋完善的同时.在它尚未涉及的音频领域又有了新的动作,且开始便出手不凡。在去年的新
目的:应用窦道刮除术配合中药药线治疗窦道并观察其临床疗效。方法:采用窦道刮除术配合中药药线治疗窦道32例,必要时采用垫棉法、缠缚法。结果:随访时间半年治愈率84.38%,总有效率93
26S蛋白酶体是细胞内最重要的蛋白质降解机器,对维持细胞代谢和机体健康起着重要作用。蛋白酶体结构上分成20S和19S两部分,由33个亚基组成。蛋白酶体受到多种翻译后修饰,磷酸
草原旅游业在我国农牧业地区经济发展中的比重逐年增加,越来越显示出其产业优势。从非物质文化遗产资源对发展草原旅游的必要性入手,论述了开发利用非物质文化遗产资源对提升
为了解贵州典型喀斯特地区土壤动物的生态分布和石漠化对土壤动物群落的影响,于2008年8月对贵州顶坛、簸箩和石桥等地的土壤动物及部分土壤因子进行了调查。结果显示,研究区
草业是我国大农业的重要组成部分,也是农业现代化的明显标志。阐述了我国草业在新时期的内涵、功能、指导思想、生产和管理方式,指出了我国草业发展面临的主要矛盾,并提出提高草
多数人对于土地之合理利用,未尽明了,垦殖之释义.亦多含混。举凡不耕种之地,均认为荒地,即可移民垦殖,是以地面有木伐之,有草犁之,悉可改种五谷,增加生产,其意固善,其行则愚。庶不知五谷
利用SRAP标记对黑龙江地区采集的30株野生黑木耳菌株进行遗传多样性分析,利用8对扩增条带清晰、多态性丰富、稳定性较好的引物对30个供试菌株进行SRAP扩增,共得到157条重复性
目的 探究与分析红细胞比容与D-二聚体水平在慢性阻塞性肺疾病中的检测意义.方法 选取我院自2016年5月-2018年5月收治的45例慢性阻塞性肺疾病患者作为观察组,另选择同时期收
亿能内存或许很多人不知道,但要说起其上级品牌奇梦达(Qimonda)相信很多朋友便不会陌生,如果您还说不知道那么奇梦达(Qimonda)的前身英飞凌(Infineon),想必就没有什么人不知道了。亿能