论文部分内容阅读
自然语言是人类进行信息交流和知识保存的重要工具,同时也是人机交互过程中最主要的形式。因此,让机器实现对自然语言的理解,是现阶段人工智能的重要发展方向,同时也是学术界的热门研究课题。自然界中存在的不同事物,以及事物之间的联系已是海量级别,随着互联网中以维基百科、IMDB等数据库为首的结构化信息的大量积累,用于组织和维护开放领域中海量知识的大规模结构化知识库应运而生。它们以标准化的符号存储了千万以上的实体、以及十亿以上实体之间具有的关系,成为了语义表达的有效载体,同时也引出了一系列基于知识库的自然语言理解研究。因此,本文针对描述客观事实的自然语言文本,利用知识库实现多个维度的语义理解。根据语义所体现的不同层次,本文从实体、关系和句子这三个层面研究自然语言理解问题。实体是语义中不可再分的元素,多个实体由关系互相连接构成基本事实,而句子往往包含着多个关系,具有更加复杂的整体语义。具体而言:实体层面的理解体现为直接匹配,将文本中代表实体的短语链接至知识库中的特定实体;关系层面的理解体现为结构匹配,将自然语言关系转换为由知识库关系(谓词)所构建的特定语义结构;句子层面的理解则对单一关系的结构匹配进行深入扩展,对于问句而言还体现为推理匹配,即根据语义结构,从知识库中寻找问句的正确答案。对于这些粒度的自然语言理解问题,需要使用不同的方法进行语义建模。对于实体理解问题,其核心为计算实体短语的上下文信息与候选知识库实体间的匹配程度。经典的实体链接任务具有以下特点:候选实体数量庞大,实体短语普遍存在的一词多义性,以及候选实体之间存在相互依赖关系。本文中,我们关注对表格文本进行跨语言的实体链接任务,除了上述特点以外,表格文本所具有的半结构性,以及文本和知识库由不同的语言所描述,这给此任务带来了新的挑战。为此,我们提出了基于神经网络和跨语言词向量的链接模型,其优势在于:降低翻译过程带来的信息损失,学习表格行列方向的上下文和一致性特征,并通过联合训练框架提升整体链接质量。在跨语言和单语言两个场景上的实验表明,我们的模型有效捕捉表格中实体之间的特殊联系,同时在跨语言场景中具有稳定而良好的效果。对于关系理解问题,其核心为用知识库中的结构描述自然语言中,一个二元关系的语义。该问题主要具有以下两个特点:首先自然语言关系同样存在多义性,其次关系和知识库中的谓词存在语义间隔,难以实现简单的一一对应。基于这两个特点,我们对自然语言关系进行了两个粒度的语义建模。粗粒度的建模聚焦于关系的多义性,我们通过对知识库构建更加丰富的类型层次结构,挖掘一个二元关系的主语和宾语所具有的不同类型搭配,实验结果表明我们的模型效果优于传统的选择偏好模型。细粒度的建模旨在利用知识库实现对关系语义的精确表达,我们致力于使用人类能理解的图结构描述关系语义,提出了基于规则推导的模式图推理模型,以挖掘关系可能的复杂结构表示,并将其运用于知识库补全任务。实验结果显示,我们的模式图推理模型不仅具有高度可解释性,而且效果优于其它规则推导模型和新兴的知识库向量模型。对于问句理解问题,我们着眼于基于知识库的自动问答任务,即在知识库中寻找代表答案的实体集合。由于问句包含了未知答案与其它实体的一个甚至多个关系,其语义变得更加复杂的同时,带来了如下挑战:如何描述问句的复杂语义,以及如何有效度量问句和语义结构之间的相似度。基于深度学习的语义匹配模型得到了广泛的研究,但这些模型所适用的语义结构存在限制,对复杂问题的回答存在瓶颈。为此,我们提出了针对复杂问题的的深度学习语义匹配模型。该模型沿用关系理解中的图结构表示,首先生成问句可能对应的候选查询图,然后利用深度神经网络学习这些查询结构的整体语义表示,以此捕捉问句中不同语义成分的有机结合。实验结果表明,基于复杂查询图的深度学习模型在多个复杂问题和简单问题数据集上都具有良好的性能。综上所述,本文从实体、关系、问句三个粒度出发,研究自然语言和知识库之间的语义理解与匹配问题。在实体理解中,我们提出了基于神经网络、跨语言词向量以及联合训练的链接模型,并用于解决跨语言场景中对表格文本进行的实体链接问题。对关系和问句的语义理解,我们始终贯彻语义建模的可解释性,使用主宾语类型搭配描述关系具有的多义性,以及使用基于知识库的图结构描述关系或问句的精确语义。对于自动问答任务,我们提出的深度学习模型实现了对复杂图结构的整体建模,得以充分体现其特征学习能力,更有效地度量问句与复杂结构的语义匹配程度。最后,希望本文的一系列工作能够对该领域今后的学术研究有所帮助。