基于深度学习的联合实体关系抽取

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:Ricky_C
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的兴起,每天都有不同形式的大量的文本数据产生:新闻、研究文献、博客、论坛文字以及社交媒体评论等。很多重要有用的信息隐藏在其中,如何从这些自由文本中自动抽取所需要的信息是一个关键并且重要的一步。信息抽取任务就是为此目标而诞生。本文主要研究信息抽取子任务之一的实体关系抽取任务。该任务旨在识别文本中出现的实体,并判断出实体之间存在的关系。传统的有监督实体关系抽取通常采用基于流水线的方法,即实体模型和关系模型分开训练。在测试阶段,先用实体模型识别出实体,然后关系模型找出这些实体之间的关系。这种流水线的方法存在着错误传播的缺点,前一个任务的错误会累积到后一个任务。为了缓解这一问题,研究人员提出了联合模型。联合模型将两个子模型统一建模,可以进一步利用两个任务之间的潜在信息,以缓解错误传播的缺点。联合模型的难点是如何加强实体模型和关系模型之间的交互,比如实体模型和关系模型的输出之间存在着一定的约束,在建模的时候考虑到此类约束将有助于联合模型的性能。另一方面,为了解决实体关系抽取数据集难以获得的问题,远程监督的方法也被提出来。其主要思想是利用知识库和大规模文本数据对齐,自动构建大规模的训练集。然而,远程监督方法的缺点是自动构建的训练集中存在着很多的噪音数据,这些噪音数据的存在对远程监督实体关系抽取有着很大的负面影响。此外,在有些应用场景中可能没有现成的知识库可以用来进行远程监督,如何解决类似的数据噪音和数据缺失问题也是一大挑战。根据实体关系抽取方法的研究现状,本文从数据和联合模型两个角度探索了几种实体关系抽取联合模型,并且探究了所提出模型的优势和不足。具体来说,本文的主要贡献有1.为了缓解远程监督中的噪音样本问题,本文提出利用少量高质量异构的人工标注数据集帮助远程监督实体关系抽取任务。本文设计了一个基于多任务学习的融合框架,并且在融合过程中考虑到子模型之间的一致性约束,从而实现知识的迁移。本文提出的系统在标准远程监督数据集能够显著的提高联合抽取的性能(数据角度)。2.为了解决某些领域没有现成知识库无法进行远程监督的问题,本文提出利用语言学规则进行远程监督。首先应用领域无关的语言学规则自动构建训练集,然后使用分类器在得到的训练集上进行训练,最后利用分类器进一步抽取语言学规则无法覆盖的新的实体关系。本文提出的算法很快并且适用于大规模数据。在Amazon在线评论数据集上的实验表明了本文提出的算法明显优于多个基准模型(数据角度)。3.为了加强实体模型和关系模型之间的交互,本文提出基于风险最小化训练方法的联合实体关系抽取模型,通过优化全局的损失函数以达到加强实体模型和关系模型之间联系的目的。在ACE05数据集上的实验证明了提出模型的有效性(联合模型角度)。4.为了同时考虑到实体类型和关系类型的信息,本文提出一个基于图卷积网络的联合模型用于实体关系抽取。我们构造了实体-关系二分图,并在图上运行图卷积网络,从而捕获多个实体和多个关系之间的信息。在ACE05数据集上的实验证明了提出模型的有效性(联合模型角度)。
其他文献
畜禽粪便富含有机质和养分,是传统的有机肥料,但如今畜禽粪便含有过量的重金属和抗生素。如果直接施用在农田上会造成重金属和抗生素的积累,而且残留在环境中的抗生素会诱导抗性基因(antibiotic resistant genes,ARGs)的出现。这些污染物不仅影响农作物的生长,甚至可能对人体健康造成危害,构成严重的公共卫生问题,因此必须对畜禽粪便进行无害化处理。常见的畜禽粪便处理方法,如堆肥,虽能有
本文作者以系统工艺设计为研究对象,介绍了含重金属废水处理的几种方法,对其原理、优缺点进行了评述,并提出了处理含重金属废水时应遵循的原则。对从事相关工作的同行有参考
采用乳糖发酵短杆菌(Brevibacterium lactofermentum)L-谷氨酸产生菌ZQ-1,进行30m^3发酵罐L-谷氨酸一次性中糖发酵工业化试生产,连续5罐发酵平均产酸率为6.75%,转化率为48.3%。
通过对辽宁省高校创新团队4年建设情况的总体评价,从三个方面阐述了具有辽宁特色的高校创新团队运行机制选择的合理性和有效性。同时结合当前辽宁省科技、经济和社会发展新的
燃煤电站锅炉运行过程产生的NO_x是大气中NO_x的主要污染源之一,随着节约能源、保护环境的形势日趋严峻,作为火力发电环节中节能环保、提高效率的主要技术之一,超临界、超超
回顾了近20多年来变加速动力学和广义猝变动力学的研究状况.对该领域多学科交叉发展势态做了适当评述.变加速动力学和广义猝变动力学可能成为经典力学的一个新的生长点.
金太阳杏是山东省果树研究所引进的欧美杏品种之一,抗霜冻、丰产、连续结果能力强,在我国北方大部分地区表现良好,其管理措施简单,品质优良,早熟,深受果农欢迎.
目的探讨2011-2013年宁波市鄞州区手足口病病原学与若干流行病学特征之间的关系。方法采集3年间1015例手足口病临床诊断病例的标本进行病原学检测并分析病原学监测结果。从中
儿童时期在人生中扮演着重要角色,一个人的儿童时期是他迈向人生旅途的第一步,为其未来朝着良好方向发展奠定了基础。儿童会在多种因素的交叉影响之下获得不断成长,逐渐形成
媒体融合有助于构建现代传播体系,改进高校舆论引导工作,不断推进传统舆论宣传阵地升级改进,加快推进高校传统舆论宣传阵地转型升级,适应新时代传播规律的发展变化,巩固壮大