论文部分内容阅读
海量互联网数据的异构、多源和异质等问题使得高效、精准的知识获取成为巨大的挑战。关系抽取是自然语言处理中的一项基础性任务,从无结构化的文本数据中自动获取结构化的关系型事实,为大规模知识图谱的构建和互联网智能知识服务提供支持。随着深度学习技术的广泛应用,神经关系抽取模型的精度获得了很大提升。然而,现有的主流研究一般关注英语语言的、句子级别的关系抽取。与英语不同,中文表述灵活多变,语法和构词规则相对不固定,大量语义知识蕴含在中文短文本中,通常很难被现有算法有效抽取。本文主要研究面向中文短文本的关系抽取问题。由于中文短文本独特的语言学特征,其关系抽取任务与传统工作相比具有诸多挑战。短文本的语法结构和语义一般不完整,部分短文本蕴含的语义关系属于常识性知识,关系表述的上下文高度稀疏。与英语相比,中文基础自然语言分析较低的准确度,以及短文本关系抽取标注数据集的缺乏也增大了这一问题的难度。本文分别从基于词嵌入的上下位关系抽取、知识增强的语义关系抽取、以及非上下位关系抽取与语义理解等三个方面进行深入研究,设计了面向中文短文本的关系抽取框架,较好地解决了上述挑战。本文的主要工作和贡献概述如下:(1)基于词嵌入的上下位关系抽取:分类体系是知识图谱中概念的层次化表示和重要组织形式,由大量上下位关系构成。与英语相比,由于中文语言表述高度灵活,中文上下位关系抽取不能简单采用文本匹配算法来实现。本文结合神经语言模型和中文语言学特性,采用词嵌入作为中文术语的特征表示,建模中文上下位关系在词嵌入空间的表示,即学习中文下位词在词嵌入空间中投影到对应上位词的过程。本文首先提出了半监督式上下位关系扩展模型,即迭代地从互联网数据中发现新的上下位关系元组,解决了中文上下位关系数据集大小有限的问题。为了精确建模中文上下位关系与非上下位关系分类的决策边界,我们进一步提出基于转导学习和模糊正交投影学习的两个上下位关系分类模型。实验效果表明,提出的模型在精度上超过了现有最佳方法,有效实现中文上下位关系抽取。(2)知识增强的语义关系抽取:上述基于词嵌入的上下位关系抽取模型依赖于特定领域的训练集,对其他类别的数据源和相关任务没有加以良好运用。本文以词嵌入投影模型为基础,探索知识增强的语义关系抽取算法,从多知识源、多语言、多词汇关系三个角度,抽取多种类型的语义关系。首先,由于大规模分类体系中含有大量上下位关系,本文提出分类体系增强的对抗学习框架,利用双重深度对抗学习机制,将互联网中的海量上下位关系知识融入基于特定训练集的词嵌入投影神经网络中。其次,本文扩展了模糊正交投影模型,分别提出了迁移模糊正交投影模型和其扩展版本迭代迁移模糊正交投影模型,结合了深度迁移学习和双语术语对齐技术,在小样本学习场景下,实现了面向小语种的跨语言上下位关系抽取。最后,由于知识本体中一般包含多种类别的词汇关系,本文提出超球关系嵌入模型,对多种类别的词汇关系分别进行语义建模,学习其超球嵌入表示,使投影模型可以对多种词汇关系进行分类。相应自然语言处理任务的实验效果证明了这三种模型的有效性。(3)非上下位关系抽取与语义理解:中文短文本中通常具有类别繁多的非上下位关系,前述模型预测的关系类别由人工定义,难以扩展至开放领域,而且缺乏常识性关系检测和深度关系理解的能力。在这一部分研究中,首先提出基于模式的非上下位关系抽取算法,它采用图挖掘技术,从中文短文本中挖掘出表达丰富语义关系的频繁语言模式,无监督地抽取出与这些模式相对应的非上下位关系三元组。由于上述方法只能抽取出频繁模式对应关系,本文进一步提出数据驱动的非上下位关系抽取算法,它采用三阶段的数据驱动架构,实现从中文短文本的切分到关系生成的完整流程,提升关系抽取的覆盖率。最后,我们观察到,基于习语性分析的语义理解技术可以从中文短文本中推导出更多关系,实现深度知识推理。本文据此提出了关系性与组合性表示学习框架,对中文复合名词的习语性程度进行分类,并且探究这一算法对自然语言理解的提升作用。实验结果表明,上述算法在面向中文短文本的关系抽取中,不局限于人工定义关系类别,可以在多个领域准确地抽取出多种非上下位关系。综上所述,本文从三个方面解决从中文短文本中抽取语义关系的问题,在多个自然语言处理任务相关的公开数据集上进行实验,实验结果证明了提出方法的有效性。本文的研究工作也为实现面向互联网海量中文短文本的关系自动抽取和语义理解系统提供技术基础,在尽可能减少人工干预的情况下,充分挖掘短文本中蕴含的知识,从而对现有大规模中文知识图谱系统进行扩展和补全。