论文部分内容阅读
Web 2.0时代,网络百科提倡的多人协作模式充分地利用了网民的集体智慧,推动了网络百科的迅速发展。研究者认识到网络百科蕴含了丰富的人类知识,可以将其应用于问答系统、搜索引擎等智能信息服务应用。因此,研究和利用面向网络百科的开放关系抽取技术,从网络百科中抽取出机器可读、可理解的结构化知识,成为了一个研究热点。然而,开放关系抽取通常面临着关系发现泛化能力不强、关系语义描述不精确、远监督错误标注、关系分类特征设计困难等问题。本文为解决这些问题进行了深入研究,具体研究内容如下。(1)开放关系发现。现有的开放关系发现系统仅能提取那些句法表示与显式模式完全匹配的关系。然而,在网络百科中,关系种类众多且表现形式多种多样,有限的模式不足以涵盖各种类型的关系。为了从原始数据中学习更具概括性的语法特征来表示关系,提高关系发现的泛化能力,本文设计了一个多层卷积神经网络(CNN),并将扩展依存路径上的依存序列作为输入,自动提取抽象特征,完成关系发现。在维基百科数据集上的实验结果表明,无论关系以已知还是新的句法模式呈现,利用卷积神经网络从句法依存序列中学习的语法特征对于开放关系发现都是有效的。(2)开放关系标注。网络百科中所含关系种类众多,预先定义其关系类别不现实。本文利用聚类算法解决非特定关系抽取中同类关系实例的识别问题。针对现有方法存在不相关词序列干扰问题,提出了一种基于核心依存短语的关系聚类方法。为避免不相关的依存短语影响,本文首先设计了启发式规则来选择核心依存短语,以更精确地捕获实体之间关系的语义,然后根据核心依存短语的语义相似性聚类关系实例,并根据位于同一聚类中核心依存短语间的语义距离对聚类打标签。实验结果表明,本文方法可以更精确地描述实体间关系,进而获得更好的聚类效果,为关系聚类生成合理的标签。(3)远监督错误标注消除。由于网络百科中所含关系种类众多,研究面向网络百科的关系分类所需标注数据规模巨大,靠人工标注数据进行有监督显然是不现实的。为解决数据标注问题,现有研究提出将远监督方法应用于面向网络百科的关系分类。然而远监督方法中通常存在大量错误标注现象,严重影响远监督方法的关系分类效果。为提高关系分类效果,首先需要消除错误标注。知识库利用关系短语描述各种关系类型,而实体间的关系由依存短语描述。基于此,本文提出了利用语义Jaccard度量关系短语与依存短语间的语义相似性,消除错误标注的方法。实验结果表明,利用语义相似性消除错误标注是有效的,提高了关系分类的效果。(4)基于卷积神经网络的关系分类。针对现有神经网络关系分类模型通常存在不相关词序列干扰以及上下文窗口设置问题,本文提出将核心依存短语作为卷积神经网络的输入,用于关系分类。在消除错误标注的过程中,语义Jaccard会选择核心依存短语表示句子中的候选关系,该短语能够捕获关系分类所需特征,可以消除来自不相关词序列的干扰,同时避免了上下文窗口大小的设置问题。实验结果表明,将核心依存短语作为卷积神经网络的输入可以有效消除无关信息的干扰,提高关系分类的效果。综上所述,为了提高关系发现泛化能力、精确描述关系语义、消除训练数据错误标注、解决关系分类特征设计问题,本文分别提出了基于卷积神经网络的关系发现、基于核心依存短语的关系标注、基于语义相似度的远监督错误标注消除、基于卷积神经网络的关系分类等一系列新方法,提高了面向网络百科关系抽取的效果。