面向中文短文本的关系抽取算法设计

来源 :华东师范大学 | 被引量 : 2次 | 上传用户:yanghong098
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量互联网数据的异构、多源和异质等问题使得高效、精准的知识获取成为巨大的挑战。关系抽取是自然语言处理中的一项基础性任务,从无结构化的文本数据中自动获取结构化的关系型事实,为大规模知识图谱的构建和互联网智能知识服务提供支持。随着深度学习技术的广泛应用,神经关系抽取模型的精度获得了很大提升。然而,现有的主流研究一般关注英语语言的、句子级别的关系抽取。与英语不同,中文表述灵活多变,语法和构词规则相对不固定,大量语义知识蕴含在中文短文本中,通常很难被现有算法有效抽取。本文主要研究面向中文短文本的关系抽取问题。由于中文短文本独特的语言学特征,其关系抽取任务与传统工作相比具有诸多挑战。短文本的语法结构和语义一般不完整,部分短文本蕴含的语义关系属于常识性知识,关系表述的上下文高度稀疏。与英语相比,中文基础自然语言分析较低的准确度,以及短文本关系抽取标注数据集的缺乏也增大了这一问题的难度。本文分别从基于词嵌入的上下位关系抽取、知识增强的语义关系抽取、以及非上下位关系抽取与语义理解等三个方面进行深入研究,设计了面向中文短文本的关系抽取框架,较好地解决了上述挑战。本文的主要工作和贡献概述如下:(1)基于词嵌入的上下位关系抽取:分类体系是知识图谱中概念的层次化表示和重要组织形式,由大量上下位关系构成。与英语相比,由于中文语言表述高度灵活,中文上下位关系抽取不能简单采用文本匹配算法来实现。本文结合神经语言模型和中文语言学特性,采用词嵌入作为中文术语的特征表示,建模中文上下位关系在词嵌入空间的表示,即学习中文下位词在词嵌入空间中投影到对应上位词的过程。本文首先提出了半监督式上下位关系扩展模型,即迭代地从互联网数据中发现新的上下位关系元组,解决了中文上下位关系数据集大小有限的问题。为了精确建模中文上下位关系与非上下位关系分类的决策边界,我们进一步提出基于转导学习和模糊正交投影学习的两个上下位关系分类模型。实验效果表明,提出的模型在精度上超过了现有最佳方法,有效实现中文上下位关系抽取。(2)知识增强的语义关系抽取:上述基于词嵌入的上下位关系抽取模型依赖于特定领域的训练集,对其他类别的数据源和相关任务没有加以良好运用。本文以词嵌入投影模型为基础,探索知识增强的语义关系抽取算法,从多知识源、多语言、多词汇关系三个角度,抽取多种类型的语义关系。首先,由于大规模分类体系中含有大量上下位关系,本文提出分类体系增强的对抗学习框架,利用双重深度对抗学习机制,将互联网中的海量上下位关系知识融入基于特定训练集的词嵌入投影神经网络中。其次,本文扩展了模糊正交投影模型,分别提出了迁移模糊正交投影模型和其扩展版本迭代迁移模糊正交投影模型,结合了深度迁移学习和双语术语对齐技术,在小样本学习场景下,实现了面向小语种的跨语言上下位关系抽取。最后,由于知识本体中一般包含多种类别的词汇关系,本文提出超球关系嵌入模型,对多种类别的词汇关系分别进行语义建模,学习其超球嵌入表示,使投影模型可以对多种词汇关系进行分类。相应自然语言处理任务的实验效果证明了这三种模型的有效性。(3)非上下位关系抽取与语义理解:中文短文本中通常具有类别繁多的非上下位关系,前述模型预测的关系类别由人工定义,难以扩展至开放领域,而且缺乏常识性关系检测和深度关系理解的能力。在这一部分研究中,首先提出基于模式的非上下位关系抽取算法,它采用图挖掘技术,从中文短文本中挖掘出表达丰富语义关系的频繁语言模式,无监督地抽取出与这些模式相对应的非上下位关系三元组。由于上述方法只能抽取出频繁模式对应关系,本文进一步提出数据驱动的非上下位关系抽取算法,它采用三阶段的数据驱动架构,实现从中文短文本的切分到关系生成的完整流程,提升关系抽取的覆盖率。最后,我们观察到,基于习语性分析的语义理解技术可以从中文短文本中推导出更多关系,实现深度知识推理。本文据此提出了关系性与组合性表示学习框架,对中文复合名词的习语性程度进行分类,并且探究这一算法对自然语言理解的提升作用。实验结果表明,上述算法在面向中文短文本的关系抽取中,不局限于人工定义关系类别,可以在多个领域准确地抽取出多种非上下位关系。综上所述,本文从三个方面解决从中文短文本中抽取语义关系的问题,在多个自然语言处理任务相关的公开数据集上进行实验,实验结果证明了提出方法的有效性。本文的研究工作也为实现面向互联网海量中文短文本的关系自动抽取和语义理解系统提供技术基础,在尽可能减少人工干预的情况下,充分挖掘短文本中蕴含的知识,从而对现有大规模中文知识图谱系统进行扩展和补全。
其他文献
为了分析铀尾矿砂的渗透特性对铀尾矿库稳定性的影响,通过实地勘测调查并结合相关地质文献对中国南方某铀尾矿库的区域概况和研究现状进行了总结,对试验所用三种铀尾矿砂的基本物理参数、土水特征曲线、渗透率和渗透系数进行了测定和研究分析。最后,将所测数据和各参数与GEO-studio仿真软件相结合,对该铀尾矿库正常工况和洪水工况下的渗流和稳定性进行分析和总结。结果表明:(1)通过滤纸法测定的三种尾砂的基质吸力
体育舞蹈也在体育教育愈加被重视的背景下不断发展,但是体育舞蹈作为体育性和艺术性兼具的体育项目,其美育价值没有被充分开发,所以应避免将体育舞蹈课上成体育技术课,解决现
以焦粉为原料,采用KOH活化制备活性炭,通过比表面积及孔径分析仪、X射线粉末衍射仪和X射线光电子能谱仪对焦粉和活性炭的结构和表面化学性质进行分析,并考察了焦粉和活性炭对
新加坡优异的环境源于其稳固的政治领导及其始终坚持以经济与环境发展相互协调为目标的原则。在此原则下,政府重视制定以防范、执法和教育为主要内容的长期环保计划;从新加坡国
皮蛋是我国独创的传统蛋制品,但其工艺中必须使用重金属化合物。目前关于皮蛋研究主要是腌制工艺的优化,有研究表明重金属化合物不仅可调控碱渗入速率,还可与蛋白质直接作用
从种植情况、品质和产量、栽培技术、病虫害防治、市场营销等各个方面分析了成都市双流区冬草莓产业发展现状,指出了产业发展带来的成效以及发展过程中突显的问题,并就当前全
随着社会的发展和不断进步,以政府为代表的第一部门和以市场为代表的第二部门会出现“失灵”现象,这种“双失灵”的“后现代”现象正随着我国现代化的推进而愈发明显,以民间
人脸识别,作为计算机视觉领域里比较热门的一项技术,已经被广泛的应用到智能安防、社区服务、移动支付等领域。随着深度学习的发展,如何通过卷积神经网络提取有区分力的特征是人脸识别的核心所在。为了解决大规模人脸识别中特征区分度不高的问题,分别从卷积神经网络的特征提取和损失函数的多间隔约束来对人脸识别算法进行优化,增强模型的泛化能力。主要研究内容包括:1.针对标准卷积神经网络提取的特征存在通道信息冗余、卷积
1临床资料1.1病例选择病例均经组织病理学确诊,符合毛发上皮瘤的诊断标准[1]。血常规、尿常规、血小板、出凝血时间及心电图检查均正常。排除妊娠、哺乳期患者。
成熟体细胞能被重编程为诱导多潜能干细胞,这种干细胞具有分化全能性、体外易扩增、易于基因干扰或过表达等特性.随着诱导多潜能干细胞项技术在技术路线上的不断改进,以及其