基于远程监督标注数据的关系抽取研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:PDH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取是文本内容理解的重要技术之一,能够将文本分析从语言层面提升到内容理解层面。在传统的监督学习中,关系抽取依赖于人工构建的特定关系的训练语料库。然而对数据进行人工标注是一个费时费力的过程,并且其规模和领域覆盖面都受到很大的限制。远程监督作为一种新的数据构建范式,能够自动生成关系抽取训练数据,并在很大程度上缓解了对人工标注训练数据的依赖。然而基于远程监督构建的数据集不可避免地存在错误标注问题。尽管该问题得到了很多研究者的关注并取得一定进展,但是目前远程监督关系抽取任务中,还存在特征表征不够充分,标注数据准确性难以评估,构建数据不够全面,以及模型评估方法存在隐患等问题。针对这些问题,本文的主要研究内容如下:
  (1)针对目前在基于深度学习的关系抽取模型中对句子语义编码不够充分的问题,本文提出从依存句法树中学习句法感知的实体上下文表示,并结合基于词序列的特征信息,构成语义更加丰富的句子表达。本文首先通过对句子进行句法分析,建立实体之间的联系,并基于依存句法树构建三种树结构的神经网络模型来捕捉实体上下文特征。其次将实体上下文信息与词序列信息进行结合,并采用自注意力机制来自动识别与实体类别更加密切相关的特征。最后设计了两种特征组合策略以更好地进行关系分类。实验结果表明,增强的特征表达能够有效地提升关系抽取系统的性能。
  (2)针对目前在远程监督数据中无法很好地评估标注数据准确性的问题,本文提出采用强化学习方法构建句子选取器来为给定关系类别自动选取包中标注正确的句子。同时,为了最大化利用包中潜在的未被选取器准确识别的句子,本文将句子选取器的输出分别构成正例包和未标注实例包,然后将关系抽取任务转换为正例和未标注实例学习问题。在模型学习过程中,同时对正例包和未标注实例包进行语义表示,并进一步结合这两种表示构成基于给定关系类别的包语义表示,从而更好地进行关系预测。最后通过实验对句子选取器和关系分类器的有效性进行了验证。
  (3)针对目前基于远程监督方法构建的语料不够全面的问题,本文构建并发布了中文人物关系抽取数据集IPRE。首先通过中文百度百科构建人物关系类别,以解决在中文领域缺乏组织良好的知识库来为远程监督过程提供实体-关系三元组的问题。其次,为了克服远程监督带来的错误标注而导致在模型评估阶段出现错误评估的问题,本文提出对开发集和测试集进行人工标注。最后,基于构建的IPRE语料库,本文结合远程监督与多实例学习定义了三种不同类型的关系抽取任务,并设计了更合理有效的评估指标对关系抽取模型的性能进行评估。为了更好地支持后续基于IPRE数据集的关系抽取研究,本文提供了多个基准系统并进行了实验对比和结果分析。
其他文献
This presentation will consider the history of the development of the health service in the United Kingdom,which comprises England,Wales,Scotland and Northern Ireland.This development is intimately bo
随着我国西电东送能源战略的推进,高压直流输电因具备传输容量大、传输损耗低和非同步联络能力强等优点,越来越多高压直流输电工程接入电力系统。我国电网呈现出“强直弱交、多回直流集中馈入”的特征,交直流系统的耦合越来越紧密,对电力系统的安全稳定运行提出了更高的要求。换相失败是基于电网换相换流器的高压直流输电系统最常见的故障。一旦发生换相失败,会导致直流电流急速上升、直流电压急速下降、甚至功率传输中断等问题
目的报告膀胱癌根治尿流改道或尿路重建术后近期并发症的情况,总结术后近期并发症的处理方法。方法回顾性分析2002年5月至2010年5月间212例患者行膀胱癌根治+盆腔淋巴结清扫术,
随着我国经济社会的快速发展以及城镇化进程的不断深入,城市机动车的拥有量也在迅速增长,但受限于城市道路交通空间资源的有限性和道路规划建设方面投入的局限性,城市交通发展滞后于机动车快速增长态势,使得城市交通运行压力日趋严重,城市交通道路问题也愈发明显。基于城市出租车GPS轨迹数据进行时空分析,可以识别城市交通出行特征,通过探测其与路网结构的相关性,为有效缓解城市交通压力,优化城市交通规划与管理提供基础
近年来,如何让幼儿在更加平衡、和谐、刚柔并济的教育环境中获得更好的教育,已成为学前教育的重要研究课题,中国幼儿园的男教师被称为“珍稀大熊猫”。笔者希望通过这项研究,可以更加客观、准确地了解南昌市某区幼儿园男教师职业认同的现状,包括幼儿园男教师、幼儿园园内员工和社会公众在三个方面进行了调查访问,并从实践中寻求答案。希望本文的研究成果能为政府和教育部门制定幼儿园教师的政策法规提供参考,从而提高幼儿园教
学位
桃潜隐花叶类病毒(PLMVd)在栽培桃树上发生较普遍,可引起桃潜隐花叶病。在通常情况下,桃树感染该类病毒初期不表现任何症状,经5~7年的潜伏期后,产生黄色花叶症状,发病植株生长势明显降低,果实产量和品质严重受损(Albanese et al.,1992;Flores et al.1990;Hadidi et al.1997)。苹果褪绿叶斑病毒是仁果和核果类果树上发生极其普遍的一种病毒,在桃树上当品
[db:内容简介]
我国个人所得税专项附加扣除制度的实施,解决了一直备受关注的部分民生问题,减轻了纳税人的税收负担,体现了我国更加注重社会公平和对纳税人权利的保护。然从其实施过程中的效果可见,个税费用扣除制度仍存在诸多不足,具体表现为,在费用扣除方式上存在定额居多,扣除方式欠缺灵活性;在范围上,呈现出费用扣除项目较窄,未能充分体现量能课税原则;另外费用扣除标准未能随物价变动而有效变动。故适应人民对美好生活的期望,基于
大数据时代的到来对人类社会的发展产生了深远影响。海量数据的产生推动数据处理方式的变革。在此发展态势下,云计算应运而生。云计算的模式,实际上是通过构建大型共享平台,向网络用户提供在线云服务,从而实现资源的按需分配。数据中心是云计算的核心设施,而数据中心网络是连接数据中心大规模服务器实现在线云服务的平台。因此,数据中心网络的性能决定着云计算所提供的服务质量。  随着数据中心网络中服务器的大规模增加,服
随着全球定位系统技术、智能移动设备和Web 2.0技术的普及与快速发展,基于位置的社交服务逐步成为人们日常社交、出行的必备工具。为了从海量的签到中发掘过滤出用户感兴趣的,并且满足个性化需求的下一个签到兴趣点,下一个兴趣点推荐问题成为新兴的研究热点。相对于传统推荐,下一个兴趣点推荐的数据更加稀疏。同时用户签到序列模式难以刻画,并且受到多种上下文因素的影响。虽然已有一些工作提出了解决方案,但是并没有取