基于子模函数的自动摘要研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:Seanecn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,网络信息爆炸式增长,导致了各搜索引擎数据过载现象严重。如何快速有效地挖掘有用的知识,特别是提取网民对事件的情感、意见和态度等已成为重要的研究课题。文摘摘要技术是解决信息过载问题的关键手段之一,其目的是利用计算机自动地对给定的原始文档或者文档集进行摘要提取,生成一个简短连贯又涵盖原文核心内容的表述形式。然而,自动摘要研究是一项具有挑战性的任务。在其相关研究中,需要处理和解决冗余性、时间维度、句子排序和摘要优化等多个问题,这导致了文本摘要任务的复杂性,尤其是生成式摘要。目前,摘要质量的优化是自动文摘中最为关键的问题之一,其中最大边界相关算法(MMR)、整型线性规划(ILP)都是优化质量的经典方法。近年来,基于子模函数的摘要优化方法逐渐成为本领域的研究热点,它可以在有限的时间内以最优或接近最优的方式解决组合优化问题。本文介绍了一种基于子模函数的文档摘要句子选择和优化的研究方法,在特定约束条件下,采用贪婪算法可以解决单调的子模函数最大化问题,使得生成的机器以常数因子接近理想的标准摘要。具体工作主要包括以下两点:第一,提出了一种联合子模函数的多文本摘要优化选择的改进方法。该方法首先以句子作为结点,以句子对之间的联系作为边构建无向图。同时考虑文本内容相关性和多样性构建摘要选择集合函数,进行线性组合,采用贪婪算法选择句子优化摘要结果。此外,在传统TFIDF余弦相似度计算基础上,充分利用词的语义关系,分别从基于WordNet语义和基于WMD转移距离对句子相似度计算进行了改进。在标准的多文档摘要任务数据集DUC2004上进行实验验证了方法的可行性和有效性。第二,提出了一种基于子模函数的观点摘要研究的改进方法。该方法首先利用基于WordNet语义传播算法构建关于电影Aspect的本体树,进行评论句子分类。然后构建一类具有子模特性的目标函数来达到文本客观内容(含内容相关性和多样性)与主观情感(情感的覆盖性)之间的平衡,采用基于贪婪算法的局部枚举方式抽取重要句子构成摘要候选集。基于我们的方法,可以挖掘电影评论中覆盖多个Aspect和主观情感的观点句子。在Pang的极性分类数据集上分别从摘要质量和情感相关性进行实验验证了方法的可行性和有效性。
其他文献
智能交通系统(ITS)是智能视频监控系统在现代交通领域的重要应用,代表着未来交通管理的发展趋势,其中基于视频的车辆检测是ITS的一项关键内容,在ITS中起着决定性的作用。通常将
进入到二十一世纪之后,随着互联网的普及、信息化的高速发展,互联网用户的数量和网络应用业务的种类不断增多,使得在网络上不良信息迅速繁衍,不法分子利用网络传递和散步大量
数字地球的发展已对社会生活的各个方面产生了巨大影响,围绕数字地球开展的一系列卓有成效的工作受到了人们的广泛关注。基于大众化的技术开发正在随着GoogleEarth平台和Goog
随着多媒体技术和互联网技术的发展,图像信息越来越得到人们的重视。如何有效、准确地从大量的图像数据库中查找出人们感兴趣的图像成为了人们亟待解决的重要问题。基于内容
Web 2.0的飞速发展使得人们在社交媒体中的参与度不断提高,随之产生的各种携带用户观点和情感的结构化与非结构化信息为研究者们提供了大量可研究的资源,对其进行情感分类可
在基于构件的系统中,随着用户需求、软件运行环境不断地发生变化,系统在运行中需要不停地进行更新,对于某些需要长期运行的关键业务系统,如卫星定位导航系统、金融系统等,这些关键
目前,随着移动智能终端设备计算能力不断增强与存储容量逐渐扩大,而其价格日趋低廉,使得移动智能终端设备得到大量普及。其中,流媒体终端应用日益为人们所喜爱。为移动智能终
电网是人们日常生活中的重要组成部分,为了保证电网的可靠、安全、经济的运行,同时也为了给低碳经济开辟道路,建设智能电网已成为当今发展的必然趋势,智能电网建设中的电力设备状态监测举足轻重,监测信息的实时通信也越发重要。本文中首先深入细致地研究和分析了IEC61850标准与制造报文规范的基本组成及特点,着重研究了IEC61850标准中的抽象通信服务接口模型的通信结构和服务以及特殊通信服务映射,而后依据I
随着虚拟现实技术和现代医学的快速发展,虚拟现实技术已被广泛应用到医学仿真中,形成虚拟手术仿真这一全新的研究领域。目前,随着现代医学的不断发展,内窥镜手术因其所具有的康复
传感器网络集成了传感器技术、嵌入式计算技术及现代网络技术于一体,一种新的信息采集和处理技术。无线传感器网络由于其前景广阔的应用前景而成为现代通信技术的一个新的研究