基于主题模型的中英文多文档自动文摘

来源 :苏州大学 | 被引量 : 0次 | 上传用户:aa1bb1aa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究。同时,随着人们对跨文本信息融合的分析,多文档自动文摘成为研究者们关注的热门话题,多文档自动文摘在问答系统、搜索引擎和话题检测等诸多应用中都有涉及。本文深入分析了现有的多文档自动文摘技术,将主题模型应用到关键句检测中,并使用动态模型进行冗余控制,在此基础上实现了一个基于主题模型的多文档自动文摘系统。实验结果表明,本文给出的系统在TAC2008和TAC2009自动文摘评测中使用Rouge评测,取得了良好的性能。本文主要针对多文档自动文摘中的两个关键部分:关键句检测和冗余度控制进行了详细分析。在关键句检测方面,本文构建了基于主题模型的句子主题特征,实验证明句子主题特征能够在多文档自动文摘中起了很大作用,将主题特征与其他特征组合构成的特征向量也能很好地提高系统的性能。在冗余控制方面,本文将动态模型引入到句子抽取模块,并在此基础上设计了针对更新摘要的动态模型,使用该动态模型生成的更新摘要能有效地避免历史信息的冗余。在TAC2008语料上的实验表明,本文的关键句检测与冗余控制相结合后,取得了很好的系统性能,特别是在更新摘要任务中,结果高于参赛系统中的最好结果。最后本文将提出的两个关键技术应用于中文语料上,实验结果表明主题模型同样有助于中文语料多文档中句子重要度的检测,动态模型对中文多文档同样可以有效地控制冗余。但英文处理的效果明显优于中文,原因是中文语料需要经过特殊预处理,进而影响了后继的性能。
其他文献
SaaS(软件即服务)是随着互联网发展形成的一种新的软件应用模式。基于SaaS的报表工具系统是新一代的报表工具软件,可以云服务方式高效、灵活、经济地来提供各种报表服务。本
随着IT技术的不断发展,企业出现了许多基于Web的应用系统,这些系统在开发语言、部署平台、通信协议等方面存在很大的差异,如何将各个应用系统跨平台地无缝集合在一起,成为企业亟
本文中的微系统是泛指尺寸比较微小、在通常状态下用肉眼难以直接观察的系统,其含义较为宽泛,除了包含传统意义上的微机电系统(MEMS)外,还可以包括模式生物学领域中细胞群体组成
面向服务体系结构(SOA)是继面向对象、基于构件开发之后的一种新型软件开发、部署和集成模式,为软件开发提供了灵活的设计和开发方案。Web服务作为SOA的一种实现方法,突破了
最近几年,图像显著性检测是计算机视觉领域研究的热点。图像显著性检测的目的是能够将图像中感兴趣的目标区域自动地检测出来。对目标区域的检测精度与检测效率将直接影响到
信息在当今社会中占据着越来越重要的地位。可靠精确的信息,能够提高工作效率,缩短工作时间,有助于增强竞争力,做出科学的抉择。信息检索作为捕获用户需求信息的一种重要手段
虚拟计算环境是建立在广域互联网基础设施之上,为完成大型的应用需求进行网络资源的聚合,为用户提供可信的、透明的、服务一体化的环境。在虚拟计算环境下搭建地理信息系统,
医学图像融合技术是当今国内外研究的一个热点,医学图像融合能够综合利用医学图像中的互补信息,得到包含信息更全面、显示效果更好的图像,为临床诊断和治疗提供更精确的数据
信息化是当今世界经济和社会发展的大趋势。通过搭建专用数据中心,企业以网络服务的方式将生产、管理过程数字化、信息化,极大的提高了企业自身的生产和工作效率。随着互联网技
随着移动互联网的高速发展和林业“十三五”改革的要求,针对现阶段的林业发展状况,林业现代化水平低严重制约着我国林业的发展。现有的林业巡护系统结构单一,致使林业部门的