论文部分内容阅读
篇章语义分析以获取篇章级语义信息为目标,以篇章语义结构分析和篇章语义内容分析为主要内容,是一个新兴的研究热点。目前,篇章语义分析研究主要关注如何挖掘原文内容语义信息。实际上,根据认知心理学中的联想主义理论,原文并不能脱离背景知识而存在,缺少背景知识必定会影响对原文语义的分析与理解。为了更好地进行篇章语义分析,融入背景知识是必不可少的辅助手段。本文首先在背景知识获取方面切入,出基于搜索引擎的篇章背景知识联想模型,并在其基础上进一步改进出基于分布式语义的篇章背景知识联想模型,赋予机器获取背景知识的能力;随后,将背景知识融入篇章语义分析研究最重要的两个方面:篇章语义结构分析和篇章语义内容分析,并相应地探索了篇章语义关系分析和篇章语义连贯性分析两个子问题,其中篇章语义关系分析研究以获取篇章语义结构信息为目标,篇章语义连贯性分析则以篇章语义内容信息为分析对象。本文主要研究内容可概括如下:1.基于搜索引擎的篇章背景知识联想研究本文出基于搜索引擎的篇章背景知识联想模型,采用“Subject,Predicate,Object”(主语,指示词,宾语)三元组作为知识表示方案,从人工构建知识库和自动抽取知识库中引入背景知识候选。本文出基于三元组关联网络的篇章表示方案,将背景知识候选和原文信息统一表示起来,并进一步引入搜索引擎作为资源,出基于权重传播的排序模型计算背景知识候选与原文的相关性,依此对背景知识候选进行排序。在评价方面,我们采用排序问题的方式评估模型性能,并采用人工标注的方式判定结果。实验结果显示:本文最终获得MAP值为0.676,P@20值为0.417,取得了较好的性能。2.基于分布式语义的篇章背景知识联想研究为了弥补上文方法计算效率低、评价不够完整等缺点,本文进一步出基于分布式语义的篇章背景知识联想模型。本文利用主题模型和深度学习等方法将背景知识候选和原文信息同时转换为质密的实值向量,并使用向量运算代替搜索引擎计算结点之间的语义相关度。本文随后采用改进的权重传播模型对背景知识候选进行排序,并选出相关性较高的背景知识引入文本分类任务中,通过基于任务的评价方式验证背景知识联想模型的分析效果。实验结果显示:该模型在背景知识引入上取得的MAP值为0.649,P@5值为0.5596;同时,通过引入背景知识使得文本分类模型性能高2.55%。3.融入背景知识的中文篇章语义关系研究之后,本文将背景知识融入篇章语义分析的重要方面:篇章语义结构分析,并通过探索篇章语义关系分析任务来获取篇章语义结构信息。考虑到中文篇章关系分析尚无成熟的任务定义和语料资源,本文首先出面向中文的篇章关系任务及关系类型体系,并探索大规模篇章关系语料资源的构建方法,出句群、复句、分句的三层标注方案,构建包含1096篇文档、超过两万个实例的高质量中文资源。随后,本文融合背景知识信息,探索了显式篇章关系识别和隐式关系识别,并将结果应用于倾向性分析任务中,取得了较好的效果,同时为后续研究供了资源基础和模型参考。4.融入背景知识的篇章语义连贯性分析研究本文在篇章语义关系分析的基础上更进一步,将背景知识融入篇章语义分析的另一个重要方面:篇章语义内容分析,并通过探索篇章语义连贯性分析任务来获取篇章语义内容信息。给定一篇待分析的文章,本文使用前文介绍的方法获取背景知识,并将其融入已有连贯性分析模型中,包括基于图的无指导模型和基于实体的有指导模型两类。我们在句子排序和摘要连贯性评估两个任务上测试模型,实验结果显示:融合背景知识的无指导、有指导两类模型,在两个任务上均获得了非常显著的性能升,证明了本研究的实际价值。综上,本文在背景知识获取和融入背景知识的篇章语义分析两方面都做了尝试并取得一定成果,希望本文融入背景知识来支持相关研究的思路能对其他研究人员有所启发。在本文的部分工作中,为了更好地与已有研究进行对比,我们的实验针对英文语料展开,但需要指出的是本文所出的方法并没有语言依赖性。相信随着自然语言处理技术的进步,以及各种资源的不断丰富,背景知识获取和原文语义分析方法都将不断进步,并进而促进机器翻译、自动问答、倾向性分析、自然语言生成、以及自动文摘等相关研究的进一步发展。