论文部分内容阅读
关系抽取是文本内容理解的重要技术之一,能够将文本分析从语言层面提升到内容理解层面。在传统的监督学习中,关系抽取依赖于人工构建的特定关系的训练语料库。然而对数据进行人工标注是一个费时费力的过程,并且其规模和领域覆盖面都受到很大的限制。远程监督作为一种新的数据构建范式,能够自动生成关系抽取训练数据,并在很大程度上缓解了对人工标注训练数据的依赖。然而基于远程监督构建的数据集不可避免地存在错误标注问题。尽管该问题得到了很多研究者的关注并取得一定进展,但是目前远程监督关系抽取任务中,还存在特征表征不够充分,标注数据准确性难以评估,构建数据不够全面,以及模型评估方法存在隐患等问题。针对这些问题,本文的主要研究内容如下:
(1)针对目前在基于深度学习的关系抽取模型中对句子语义编码不够充分的问题,本文提出从依存句法树中学习句法感知的实体上下文表示,并结合基于词序列的特征信息,构成语义更加丰富的句子表达。本文首先通过对句子进行句法分析,建立实体之间的联系,并基于依存句法树构建三种树结构的神经网络模型来捕捉实体上下文特征。其次将实体上下文信息与词序列信息进行结合,并采用自注意力机制来自动识别与实体类别更加密切相关的特征。最后设计了两种特征组合策略以更好地进行关系分类。实验结果表明,增强的特征表达能够有效地提升关系抽取系统的性能。
(2)针对目前在远程监督数据中无法很好地评估标注数据准确性的问题,本文提出采用强化学习方法构建句子选取器来为给定关系类别自动选取包中标注正确的句子。同时,为了最大化利用包中潜在的未被选取器准确识别的句子,本文将句子选取器的输出分别构成正例包和未标注实例包,然后将关系抽取任务转换为正例和未标注实例学习问题。在模型学习过程中,同时对正例包和未标注实例包进行语义表示,并进一步结合这两种表示构成基于给定关系类别的包语义表示,从而更好地进行关系预测。最后通过实验对句子选取器和关系分类器的有效性进行了验证。
(3)针对目前基于远程监督方法构建的语料不够全面的问题,本文构建并发布了中文人物关系抽取数据集IPRE。首先通过中文百度百科构建人物关系类别,以解决在中文领域缺乏组织良好的知识库来为远程监督过程提供实体-关系三元组的问题。其次,为了克服远程监督带来的错误标注而导致在模型评估阶段出现错误评估的问题,本文提出对开发集和测试集进行人工标注。最后,基于构建的IPRE语料库,本文结合远程监督与多实例学习定义了三种不同类型的关系抽取任务,并设计了更合理有效的评估指标对关系抽取模型的性能进行评估。为了更好地支持后续基于IPRE数据集的关系抽取研究,本文提供了多个基准系统并进行了实验对比和结果分析。
(1)针对目前在基于深度学习的关系抽取模型中对句子语义编码不够充分的问题,本文提出从依存句法树中学习句法感知的实体上下文表示,并结合基于词序列的特征信息,构成语义更加丰富的句子表达。本文首先通过对句子进行句法分析,建立实体之间的联系,并基于依存句法树构建三种树结构的神经网络模型来捕捉实体上下文特征。其次将实体上下文信息与词序列信息进行结合,并采用自注意力机制来自动识别与实体类别更加密切相关的特征。最后设计了两种特征组合策略以更好地进行关系分类。实验结果表明,增强的特征表达能够有效地提升关系抽取系统的性能。
(2)针对目前在远程监督数据中无法很好地评估标注数据准确性的问题,本文提出采用强化学习方法构建句子选取器来为给定关系类别自动选取包中标注正确的句子。同时,为了最大化利用包中潜在的未被选取器准确识别的句子,本文将句子选取器的输出分别构成正例包和未标注实例包,然后将关系抽取任务转换为正例和未标注实例学习问题。在模型学习过程中,同时对正例包和未标注实例包进行语义表示,并进一步结合这两种表示构成基于给定关系类别的包语义表示,从而更好地进行关系预测。最后通过实验对句子选取器和关系分类器的有效性进行了验证。
(3)针对目前基于远程监督方法构建的语料不够全面的问题,本文构建并发布了中文人物关系抽取数据集IPRE。首先通过中文百度百科构建人物关系类别,以解决在中文领域缺乏组织良好的知识库来为远程监督过程提供实体-关系三元组的问题。其次,为了克服远程监督带来的错误标注而导致在模型评估阶段出现错误评估的问题,本文提出对开发集和测试集进行人工标注。最后,基于构建的IPRE语料库,本文结合远程监督与多实例学习定义了三种不同类型的关系抽取任务,并设计了更合理有效的评估指标对关系抽取模型的性能进行评估。为了更好地支持后续基于IPRE数据集的关系抽取研究,本文提供了多个基准系统并进行了实验对比和结果分析。