论文部分内容阅读
关系抽取作为信息抽取领域的一个重要任务,旨在获取无结构文本中实体之间的语义关系,这些抽取到的关系事实被广泛应用于知识图谱构建、自动问答和信息检索等多个智能领域。传统的基于规则模板和特征工程的关系抽取方法,在很大程度上无法满足主动捕获动态海量文本中包含和不断涌现的新型知识及关系的需求。当今深度学习的突破引领了人工智能技术浪潮,随着互联网时代数据资源的急剧膨胀和计算力的显著提升,深度学习极大地促进了自然语言处理各个领域的发展。基于深度学习的关系抽取方法可以从海量数据中自动学习出语义特征和关系模式,但模型极度地依赖于大规模的训练数据,而人工准确地标注句子中的实体对和关系数据需要耗费大量的人力和时间。远程监督方法有效地解决了人工标注大量训练数据的难题,通过将知识图谱与无结构文本进行对齐,可以自动生成大规模训练数据,因此成为关系抽取中非常有前景的一个研究方向。然而,由于知识图谱的不完善性和偏向性,通过对齐所获得的远程监督训练数据不可避免地存在噪音标注。于是,如何抑制训练数据中标注噪音的干扰成为了远程监督关系抽取任务中亟待解决的问题。因此,本文研究了远程监督关系抽取基础理论和国内外现状,探索了通过深度学习挖掘文本内部语义和特征的关系抽取方法。本文的贡献和创新点主要包括如下几个方面:1.关系抽取降噪的影响因素研究针对远程监督的噪音标注问题,一系列基于深度学习和降噪机制的关系抽取算法被提出。然而现有的工作主要聚焦于具体的算法提升上,鲜有工作总结不同方法之间的共性以及这些降噪机制可能的影响因素。因此,本文通过分析和总结现有远程监督关系抽取降噪方法的共同特点,提出了关系抽取降噪的三个主要影响因素,包括文本中先验知识的学习、实例的标记假设和远程监督标签的信任程度。为了分析这些因素对于远程监督降噪的性能影响,本研究建立了一个基于神经网络的关系抽取模型框架,包含词降噪、句子降噪和标签降噪三个模块。对于不同的模块采用了相应的研究方案,用于分析和评估这些因素对于关系抽取不同级别降噪的影响效果。本研究为后续远程监督关系抽取的降噪技术研究提供了非常重要的思路。2.基于标签置信度自导学习的关系抽取技术在通过远程监督构造训练数据的方法中,由不完善的知识图谱对齐得到的关系标签是存在噪音的,而且实体间不存在关系的实例会占数据集的绝大多数。但是现有的方法更关注句子级的降噪,使用远程监督方法获得的标签作为模型的分类目标,而忽略了关系标签自身的噪音。为了减轻噪音标签的影响,本文提出了基于标签置信度自导学习的关系抽取方法,使用潜在标签替代远程监督标签作为分类目标。本研究通过标签置信度的自导学习过程来为远程监督信息和关系模式之间的交互建模,从而将易分关系模式中学到的知识应用于难分模式的潜在标签学习。此外,本研究使用判别性损失函数来抑制正例和负例之间的误分类问题。本研究可以有效地纠正训练过程中的噪音标签,从而实现远程监督标签级降噪,提升了关系抽取性能。3.基于多头自注意力网络的关系抽取技术基于深度学习的关系抽取模型通过神经网络将文本编码为语义嵌入表示,极大地保存了文本中对于关系抽取非常重要的先验知识。现有的神经关系抽取模型在表示学习方面已经取得了优异的性能,但是如何有效地捕获长序列的全局依存关系仍然是一个非常具有挑战性的研究问题。本文提出了一个基于多头自注意力网络(MSNet)的关系抽取方法。MSNet可以在不同位置、不同语义子空间中捕捉句子内部的信息,获取两个词之间的长距离依存性关系,而不使用任何卷积和循环操作。而且,MSNet可以并行执行多个注意力函数,极大地提升模型的计算性能。此外,本研究采用了基于MSNet的标签置信度学习方法,通过一个课程函数将易分关系模式快速融入到难分关系模式的潜在标签预测中,在MSNet表示学习基础上更高效地实现了标签级降噪,进一步提升了关系抽取性能。4.基于强化学习的关系抽取框架近年来强化学习的快速发展为关系抽取研究带来了新的思路。现有的基于强化学习的关系抽取方案更聚焦于句子级的降噪,通过减少或重分配噪音句子的方法来提升关系抽取性能,极少有工作通过强化学习来实现标签级降噪。本文提出了基于强化学习的关系抽取标签降噪模型,包括策略网络和抽取网络两个模块。模型的核心思想是设计一个策略网络来获取潜在标签,即通过一个策略函数选择远程监督还是模型预测的标签作为潜在标签的动作。获取的潜在标签可以用于监督抽取网络的训练,训练后的抽取网络上的分类性能作为奖励信息提供给策略网络,从而指导策略网络的优化。该模型可以实现策略网络和抽取网络的双重优化,从而利用强化学习动态地纠正噪音标签,并有效地提升关系抽取性能。