结合实体共现信息与句子语义特征的关系抽取

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:deathadam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,互联网的广泛使用降低了信息的生产和传播成本,为群众获取信息带来了极大的便利。但随之而来的信息爆炸等问题,也给有效信息的获取和管理带来了艰巨的挑战。因此,如何从互联网上海量文字信息中,采用信息抽取方法获取信息的本质,服务于后续的信息管理与应用,具有重要意义。关系抽取作为信息抽取领域的重要任务,得到了研究学者的广泛关注。目前主流的关系抽取方法多以实体对所在句子为输入,使用神经网络的方法,为实体对提取语义特征,或加入外部信息作为补充,来进行关系分类。这类方法忽略了语料中可能存在句子长度较短、外部信息获取困难等问题。为了克服这些问题,本文从语料集的角度出发,认为其包含了对关系抽取可能有用的全局信息,并以此为基础提出了新颖的关系抽取方法,通过构建实体共现网络,同时提取全局上下文特征和句子级上下文特征,充分挖掘语料集中的宏观和微观上下文信息,实现关系分类。首先,标注了两个中文关系分类数据集。当前关系分类实验数据集较为匮乏,己有研究中使用的数据集多为英文数据集,如SemEval-2010和NYT-2010。考虑到中文和英文之间存在一定的差异,根据百度百科和新闻语料人工标注了两个用于关系分类的中文数据集,目前己将数据集开源。其次,提出了融合关系影响力与句子级特征的关系抽取模型(RASNN)。考虑到关系与关系之间的相互影响和制约,语料集中任意实体对之间的弱关系都可能成为关系分类的依据,本文提出了关系影响力的概念,通过使用注意力机制为实体共现网络中的共现关系计算影响力权重,并结合句子级上下文特征进行关系分类。该模型能够从宏观和微观两个角度为实体对抽取上下文特征,弥补了可能存在的因句子长度太短而造成的上下文信息不充分的问题。接着,提出了基于实体共现网络与句子语义信息的关系抽取模型(CNSSNN)。鉴于关系有强弱之分,实体的不同共现实体也应该有不同的重要程度,CNSSNN模型采用注意力机制为实体的不同邻居实体和实体对的共同邻居实体计算关系权重,并通过Bi-GRU和自注意力机制提取句子级上下文特征,深度挖掘实体对的宏观语料级上下文特征和微观句子级上下文特征。最后,将本文提出的RASNN模型、CNSSNN模型和当前主流的关系抽取方法在四个数据集上进行了对比实验和分析,结果表明,本文提出的模型能够通过实体共现网络挖掘实体对的语料级上下文特征,为句子级上下文特征提供有效的补充,关系抽取效果明显优于现有的关系抽取方法。
其他文献
自我国开始推广素质教育以来,“以学生为本”的理念逐渐得到广泛的重视。自2014年以来,“核心素养”也逐渐出现在大众面前,这说明教育越来越看重学生的全面发展。加德纳教授所提出的多元智能理论提倡教学要“发现每一个孩子的天赋”,其积极的学生观、多样化的人才观、个性化的教学观,都与素质教育的目标相吻合,并且符合核心素养的要求。本研究将多元智能理论作为理论基础,了解初中生在数学方面多元智能的真实情况,为了在
本文基于哈特穆特·罗萨的著作以及相关研究,挖掘罗萨社会加速批判理论产生的时代因素和思想因素,阐述罗萨对于社会加速现象的分析,分析罗萨对于社会加速的批判,并且综合运用马克思主义基本原理、法兰克福学派批判理论以及马克思主义中国化最新成果对罗萨的理论进行评价。本文主要通过四章内容来分析和阐述罗萨理论产生的背景、主要内容以及贡献和不足。第一章,分析罗萨理论产生的现实背景和理论渊源。在罗萨理论的现实背景方面
无线体域网是一种以人体为中心的小型动态网络,它结合了可穿戴设备和可植入生物传感器技术,收集人体关键信息并传输到监控网络,使得无线体域网能广泛应用于远程医疗、健康监控等领域。然而,随着无线体域网的发展,在医院、健身房等人员密集的场景,多个无线体域网将聚集在一个有限的区域,同信道上传输的体域网之间就可能会产生同频网间干扰,严重的干扰会导致数据的多次重传,降低网络的吞吐量,影响网络性能。为了提高体域网的
压缩感知(Compressed Sensing,CS)是由Candes等人提出的一种异于奈奎斯特标准的新型采样理论,近年来,它发展迅速,并且在信号处理、应用数学和统计等领域受到了众多研究学者的
随着网络商品交易市场经济的日益繁荣发展,昆明市有越来越多的传统实体经营主体从事网络商品交易,对促进昆明经济发展,激发市场活力有着重要的影响,尤其是商事制度改革以来,
无线通信从以前单一的语音通信演变为现在的数据、图像、视频等各种通信方式,导致人们对带宽的需求日益增强。射频(Radio Frequency,RF)频谱资源稀缺且传输信道本身所具有的
随着全球人口增长和经济社会快速发展,产生越来越多的工业、农业和生活废水,威胁水体质量,甚至危害人体健康。人工湿地作为一种绿色的污水处理技术,由于其污染物去除性能优异、运行成本低、运行效果稳定、生态友好以及具有美学价值等优点,被广泛用于各种废水(如生活污水、工业污水、农业废水和渗滤液等)的处理。在人工湿地处理的各类污水中,有机污染物和氮、磷营养盐分布最为广泛。然而,在人工湿地去除污染物的过程中,产生
目的探讨全身振动运动对2型糖尿病小鼠骨骼肌的自噬活动和能量代谢的影响,以及对骨骼肌的重塑作用。方法实验将36只C57小鼠随机分为三组:正常对照组(正常饮食)(Normal,n=12)、糖尿病对照组(高脂饮食+STZ)(Control,n=12)、糖尿病振动运动组(高脂饮食+STZ)(WBV,n=12)。糖尿病对照组及糖尿病振动运动组(频率15Hz,振幅2mm)予高脂饮食8周联合链脲佐菌素腹腔注射后
针对盐碱地花生生长发育不良,荚果不充实等问题,研究施用钙肥对花生生长发育的影响,以期为盐碱地花生生产合理、高效施肥提供理论依据。本试验在盆栽条件下以花育25号为试验
环境污染和资源短缺是人类目前面临的两大难题。电池行业作为新能源领域的重要代表,解决了能量不易储存、供能间歇的问题,已发展成为全球应用最多的能源储存系统。在众多电池