基于知识库的自然语言理解

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:dai_dx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言是人类进行信息交流和知识保存的重要工具,同时也是人机交互过程中最主要的形式。因此,让机器实现对自然语言的理解,是现阶段人工智能的重要发展方向,同时也是学术界的热门研究课题。自然界中存在的不同事物,以及事物之间的联系已是海量级别,随着互联网中以维基百科、IMDB等数据库为首的结构化信息的大量积累,用于组织和维护开放领域中海量知识的大规模结构化知识库应运而生。它们以标准化的符号存储了千万以上的实体、以及十亿以上实体之间具有的关系,成为了语义表达的有效载体,同时也引出了一系列基于知识库的自然语言理解研究。因此,本文针对描述客观事实的自然语言文本,利用知识库实现多个维度的语义理解。根据语义所体现的不同层次,本文从实体、关系和句子这三个层面研究自然语言理解问题。实体是语义中不可再分的元素,多个实体由关系互相连接构成基本事实,而句子往往包含着多个关系,具有更加复杂的整体语义。具体而言:实体层面的理解体现为直接匹配,将文本中代表实体的短语链接至知识库中的特定实体;关系层面的理解体现为结构匹配,将自然语言关系转换为由知识库关系(谓词)所构建的特定语义结构;句子层面的理解则对单一关系的结构匹配进行深入扩展,对于问句而言还体现为推理匹配,即根据语义结构,从知识库中寻找问句的正确答案。对于这些粒度的自然语言理解问题,需要使用不同的方法进行语义建模。对于实体理解问题,其核心为计算实体短语的上下文信息与候选知识库实体间的匹配程度。经典的实体链接任务具有以下特点:候选实体数量庞大,实体短语普遍存在的一词多义性,以及候选实体之间存在相互依赖关系。本文中,我们关注对表格文本进行跨语言的实体链接任务,除了上述特点以外,表格文本所具有的半结构性,以及文本和知识库由不同的语言所描述,这给此任务带来了新的挑战。为此,我们提出了基于神经网络和跨语言词向量的链接模型,其优势在于:降低翻译过程带来的信息损失,学习表格行列方向的上下文和一致性特征,并通过联合训练框架提升整体链接质量。在跨语言和单语言两个场景上的实验表明,我们的模型有效捕捉表格中实体之间的特殊联系,同时在跨语言场景中具有稳定而良好的效果。对于关系理解问题,其核心为用知识库中的结构描述自然语言中,一个二元关系的语义。该问题主要具有以下两个特点:首先自然语言关系同样存在多义性,其次关系和知识库中的谓词存在语义间隔,难以实现简单的一一对应。基于这两个特点,我们对自然语言关系进行了两个粒度的语义建模。粗粒度的建模聚焦于关系的多义性,我们通过对知识库构建更加丰富的类型层次结构,挖掘一个二元关系的主语和宾语所具有的不同类型搭配,实验结果表明我们的模型效果优于传统的选择偏好模型。细粒度的建模旨在利用知识库实现对关系语义的精确表达,我们致力于使用人类能理解的图结构描述关系语义,提出了基于规则推导的模式图推理模型,以挖掘关系可能的复杂结构表示,并将其运用于知识库补全任务。实验结果显示,我们的模式图推理模型不仅具有高度可解释性,而且效果优于其它规则推导模型和新兴的知识库向量模型。对于问句理解问题,我们着眼于基于知识库的自动问答任务,即在知识库中寻找代表答案的实体集合。由于问句包含了未知答案与其它实体的一个甚至多个关系,其语义变得更加复杂的同时,带来了如下挑战:如何描述问句的复杂语义,以及如何有效度量问句和语义结构之间的相似度。基于深度学习的语义匹配模型得到了广泛的研究,但这些模型所适用的语义结构存在限制,对复杂问题的回答存在瓶颈。为此,我们提出了针对复杂问题的的深度学习语义匹配模型。该模型沿用关系理解中的图结构表示,首先生成问句可能对应的候选查询图,然后利用深度神经网络学习这些查询结构的整体语义表示,以此捕捉问句中不同语义成分的有机结合。实验结果表明,基于复杂查询图的深度学习模型在多个复杂问题和简单问题数据集上都具有良好的性能。综上所述,本文从实体、关系、问句三个粒度出发,研究自然语言和知识库之间的语义理解与匹配问题。在实体理解中,我们提出了基于神经网络、跨语言词向量以及联合训练的链接模型,并用于解决跨语言场景中对表格文本进行的实体链接问题。对关系和问句的语义理解,我们始终贯彻语义建模的可解释性,使用主宾语类型搭配描述关系具有的多义性,以及使用基于知识库的图结构描述关系或问句的精确语义。对于自动问答任务,我们提出的深度学习模型实现了对复杂图结构的整体建模,得以充分体现其特征学习能力,更有效地度量问句与复杂结构的语义匹配程度。最后,希望本文的一系列工作能够对该领域今后的学术研究有所帮助。
其他文献
近些年来,有两部民间文学研究专著的出版,实在让我感觉很受震动:一部是刘锡诚先生的《20世纪中国民间文学学术史》,另一部是祁连休先生的《中国古代民问故事类型研究》(下文简称《
街道景观是美丽城镇建设的重要组成部分,也是最能体现城镇文化的窗口。本文针对目前快速城镇化发展过程中街道景观出现的传统记忆不足、感受冷漠等问题,从文化传承的视角,提
预期管理已成为发达国家中央银行使用的重要货币政策手段之一,央行引导预期的能力会显著影响货币政策的调控效率。然而,我国央行的预期管理实践还存在诸多问题,引导公众预期
选用15个花生品种,分别为花小宝16、花育46、辽芳花2号、农大5号、濮花36、花育67、锦W 22、白沙1016、辽花5号、锦W 20、农大4号、辽芳花1号、彰武四粒红、昌花3号和锦W 28,
建筑工程总体建设的主要因素在于建筑工程的施工技术和现场管理。为了有效地保证工程建设的质量,必须要具备优秀的管理技术,才能保证项目工程顺利的实施。文章主要探讨建筑工
桥涵工程施工中的清水砼技术由于施工快、投资小、外观自然等优势受到桥涵工程施工团队的青睐。作为桥涵工程施工的主流技术来说清水砼施工对模板处理的要求非常严格,一旦某
当前我国发展志愿服务事业的相关制度尚不健全,志愿服务的发展仍然面临着巨大的挑战。美国志愿服务法律法规体系的构建起步早于我国,客观上为我国志愿服务体系的完善提供了借
<正>静脉留置针又称套管针,作为头皮针的换代产品,具有减少血管穿刺次数、减少液体外渗,对血管的刺激性小,有利于临床用药和紧急抢救,减轻护士的工作量等优点[1]。近年,我国
意大利城邦国家体系作为近代欧洲国际体系的重要来源,一是为欧洲民族国家提供了独立国家间的相互关系模式;二是为它们的联系提供了活动的舞台。1494年爆发的意大利战争,使得正在兴起
【正】 山东沂南县石室墓内石刻画像中有盘舞一种,王仲殊同志据之作"沂南石刻画像中的七盘舞"一文,考证至为详确。一九五六年二月,四川彭县汉墓中发现画像砖一方,其上亦有槃
期刊