融入背景知识的篇章语义分析方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:longweii
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
篇章语义分析以获取篇章级语义信息为目标,以篇章语义结构分析和篇章语义内容分析为主要内容,是一个新兴的研究热点。目前,篇章语义分析研究主要关注如何挖掘原文内容语义信息。实际上,根据认知心理学中的联想主义理论,原文并不能脱离背景知识而存在,缺少背景知识必定会影响对原文语义的分析与理解。为了更好地进行篇章语义分析,融入背景知识是必不可少的辅助手段。本文首先在背景知识获取方面切入,出基于搜索引擎的篇章背景知识联想模型,并在其基础上进一步改进出基于分布式语义的篇章背景知识联想模型,赋予机器获取背景知识的能力;随后,将背景知识融入篇章语义分析研究最重要的两个方面:篇章语义结构分析和篇章语义内容分析,并相应地探索了篇章语义关系分析和篇章语义连贯性分析两个子问题,其中篇章语义关系分析研究以获取篇章语义结构信息为目标,篇章语义连贯性分析则以篇章语义内容信息为分析对象。本文主要研究内容可概括如下:1.基于搜索引擎的篇章背景知识联想研究本文出基于搜索引擎的篇章背景知识联想模型,采用“Subject,Predicate,Object”(主语,指示词,宾语)三元组作为知识表示方案,从人工构建知识库和自动抽取知识库中引入背景知识候选。本文出基于三元组关联网络的篇章表示方案,将背景知识候选和原文信息统一表示起来,并进一步引入搜索引擎作为资源,出基于权重传播的排序模型计算背景知识候选与原文的相关性,依此对背景知识候选进行排序。在评价方面,我们采用排序问题的方式评估模型性能,并采用人工标注的方式判定结果。实验结果显示:本文最终获得MAP值为0.676,P@20值为0.417,取得了较好的性能。2.基于分布式语义的篇章背景知识联想研究为了弥补上文方法计算效率低、评价不够完整等缺点,本文进一步出基于分布式语义的篇章背景知识联想模型。本文利用主题模型和深度学习等方法将背景知识候选和原文信息同时转换为质密的实值向量,并使用向量运算代替搜索引擎计算结点之间的语义相关度。本文随后采用改进的权重传播模型对背景知识候选进行排序,并选出相关性较高的背景知识引入文本分类任务中,通过基于任务的评价方式验证背景知识联想模型的分析效果。实验结果显示:该模型在背景知识引入上取得的MAP值为0.649,P@5值为0.5596;同时,通过引入背景知识使得文本分类模型性能高2.55%。3.融入背景知识的中文篇章语义关系研究之后,本文将背景知识融入篇章语义分析的重要方面:篇章语义结构分析,并通过探索篇章语义关系分析任务来获取篇章语义结构信息。考虑到中文篇章关系分析尚无成熟的任务定义和语料资源,本文首先出面向中文的篇章关系任务及关系类型体系,并探索大规模篇章关系语料资源的构建方法,出句群、复句、分句的三层标注方案,构建包含1096篇文档、超过两万个实例的高质量中文资源。随后,本文融合背景知识信息,探索了显式篇章关系识别和隐式关系识别,并将结果应用于倾向性分析任务中,取得了较好的效果,同时为后续研究供了资源基础和模型参考。4.融入背景知识的篇章语义连贯性分析研究本文在篇章语义关系分析的基础上更进一步,将背景知识融入篇章语义分析的另一个重要方面:篇章语义内容分析,并通过探索篇章语义连贯性分析任务来获取篇章语义内容信息。给定一篇待分析的文章,本文使用前文介绍的方法获取背景知识,并将其融入已有连贯性分析模型中,包括基于图的无指导模型和基于实体的有指导模型两类。我们在句子排序和摘要连贯性评估两个任务上测试模型,实验结果显示:融合背景知识的无指导、有指导两类模型,在两个任务上均获得了非常显著的性能升,证明了本研究的实际价值。综上,本文在背景知识获取和融入背景知识的篇章语义分析两方面都做了尝试并取得一定成果,希望本文融入背景知识来支持相关研究的思路能对其他研究人员有所启发。在本文的部分工作中,为了更好地与已有研究进行对比,我们的实验针对英文语料展开,但需要指出的是本文所出的方法并没有语言依赖性。相信随着自然语言处理技术的进步,以及各种资源的不断丰富,背景知识获取和原文语义分析方法都将不断进步,并进而促进机器翻译、自动问答、倾向性分析、自然语言生成、以及自动文摘等相关研究的进一步发展。
其他文献
主要介绍由Cortex-M3处理器STM32F10XXX组成的硬件开发平台和专用无线传输单芯片nRF24L01实现的短距离无线数据传输方案,同时简单描述了STM32F微控制器和nRF24L01的配置,给出
2014年以来,中央加快推进生态文明建设,其已成为未来五年的十大关键任务之一。如何走出一条经济与生态协调并进的新路子,现已成为“新常态”下亟待解决的关键问题之一。这是
目的探讨糖皮质激素受体(GR)基因BclⅠ、N363S、ER22/23EK、TthⅢ1多态性在汉族人群中分布及其与汉族儿童哮喘的关系。方法 2011—2012年上海交通大学医学院附属新华医院儿童
近些年来,随着城市化进程的不断推进,城市综合体在城市建设中扮演着越来越重要的角色。万达集团作为全国最大的民营商业地产开发商,在全国陆续开发建设了一系列的城市综合体
目的通过测定各项炎症指标、检测病原体及分析预后与转归,探讨合并脓毒症对判断肺炎患儿病情轻重的意义。方法选取2008年1月至7月在中国医科大学附属盛京医院小儿呼吸急救内
印刷电路板,又称PCB,是电子设备的重要组成部分,PCB布图设计是制造PCB的前提。我国是最大的PCB生产国,随着产业结构的调正、企业的转型升级,我国PCB布图设计的研发能力日益增
作战仿真是系统仿真的一个重要分支,对于提高部队作战效能、降低军演成本、检验战法等具有重要作用,已经在发达国家军队中得到了广泛应用。本文论述了国内外作战仿真的发展,
【目的】探索有机肥对水稻产量产值的影响及对土壤改良效果,为耕地保护与质量提升项目的进一步实施提升技术支撑,为大面积推广商品有机肥提供科学依据。【方法】设3个处理,每
<正>嫩江县地处黑龙江省西北部,全县幅员面积1.51万平方公里,辖14个乡(镇)、147个行政村,驻有中储粮北方公司、农垦九三管理局及其10个国营农场。县域内耕地面积1200万亩,其
<正>本轮反弹行情从7月22日起步,当时上证指数仅在2050点附近,截至12月5日,盘中创出2978点的新高,短短4个月,上证指数涨幅高达45%。特别是从上周开始,市场"二八"分化现象明显