历史知识图谱的实体关系挖掘方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sunjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,互联网中数据量也在不断的增多。然而大部分数据以文本的形式存储,如何有效的将数据从文本中抽取出来是一个十分重要问题。实体关系抽取作为信息抽取的关键组成部分,将非结构的自然语言文本结构化,是问答系统和知识图谱等自然语言应用的基础。然而传统关系抽取方法在训练前多需要人工标注数据、选取特征并且定义关系类型需要专业领域的专家辅助,这样消耗大量的人力和时间,所以如何以更少的代价获取实体关系变的尤为重要。为解决以上问题,本文利用远程监督、深度学习、自然语言处理等技术为历史领域的实体关系挖掘设计了两种算法。本文在研究历史实体关系挖掘方法过程中,收集了百度百科、维基百科、课本及通用知识图谱等资源作为历史数据。在历史领域关系挖掘研究中,还没有出现关系类型覆盖率较高的公开数据集,人工预定义关系类型会出现偏差和不全面的问题。针对此问题,本文提出了基于规则匹配的历史实体关系抽取方法,提取非结构文本中的关系指示词,避免了人工预定义关系类型的问题。同时在模型中增加对历史文本的特殊句法处理和Logictic回归模型提高关系三元组抽取准确率。在针对人工标注数据代价高的问题上,利用远程监督的方法自动标注了训练数据,但远程监督也会带来句内噪音和标注错误的问题。为了解决这两个问题,本文提出了基于SDP、Bi GRU和APCNNs的融合关系抽取模型。其中通过最短依存路径SDP对句内噪音进行过滤,减少了句子长度,有效的解决了句内噪音问题。在加入APCNNs后,利用了其中基于句子级别的注意力机制和分段最大池化的方法,弱化了错误标注对关系抽取带来的影响。同时,将Bi GRU加入到模型的向量表示阶段,学习到了词语的上下文信息,为模型训练增加了更多特征,提高了模型的准确率。实验表明,基于SDP、Bi GRU和APCNNs的融合关系抽取模型在远程监督构建的历史训练语料中取得了不错的效果。
其他文献
对旋涡星系旋转曲线的观测结果显示星际空间中除了发光的重子物质,应该存在我们无法直接观测的物质即暗物质。暗物质弥散于星际空间,通过引力作用影响星体的运动,由观测结果
我国是世界上泥石流灾害最严重的国家之一。永吉县作为吉林省泥石流灾害易发区之一,频频遭受重大泥石流灾害,泥石流摧毁房屋,掩埋道路,制约了当地经济发展,给人民带来了严重
土壤微生物常作为土壤质量变化的重要参数。盐度作为影响土壤微生物的主要因素已经进行了部分研究,Sardinha认为盐度对土壤微生物的影响比重金属更严重。目前相关研究大多集
城市拥堵区域的正确和及时发现,能够为交通管理部门提供相应的应急措施和道路基础设施建设的改善建议,也能为市政规划部门提供非常有价值的城市建设指导意见。本论文论述的城
产业集群是一个国家或地区加快经济发展、提高产业国际竞争力的有效载体。创新绩效是衡量产业集群发展水平和发展潜力的重要指标,随着产业集群的快速发展,对于集群企业创新绩
本文我们研究紧致Hausdorff空间上复值连续函数全体构成的C*-代数C(X)上的Riemann度量及其性质.在第一章中我们给出了文章的背景介绍以及一些常用的基本概念和定理.在第二章
秦岭造山带是一条由多期次构造运动叠加改造从而塑造成的复合型造山带,是连接华北板块和扬子板块的重要纽带。南秦岭内广泛记录了新元古代岩浆事件,对于这些岩浆记录的研究能
图像分割是指根据图像已有的图像低维视觉描述特征,按照所设计的一定相似性准则将图像中在某些特征上存在相似性的区域划分成同一类别,并将图像中感兴趣的部分从图像中分离出
本论文是在非线性共轭梯度算法中已有的研究成果上进行的,主要基于DDL以及DLVHS方法进行研究和修正.为了能得到理论和计算都比较好的新共轭梯度算法,在Wolfe线搜索和强Wolfe
研究背景:脑白质高信号(WMH)是脑内小血管退行性改变的主要影像学表现之一,在老年人中常见。由于其发生率高,且与老年人认知功能障碍、痴呆、卒中等疾病密切相关,了解其损害脑