基于子主题增强的演化式多文档摘要生成方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:shengchunquan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展使人们的生活发生了巨大的变化,我们的生活被各种信息充斥着。各种媒体信息如文本、图像、音频、视频等每天都在大量地增加,而且随着时间的演化,相关的媒体信息也在不断地演化和更新。用户想要高效完整地获取自己感兴趣的信息,这无疑成为一大难题。因此,文本摘要就顺势而生了,它也是自然语言处理领域的热点研究课题。文本摘要可分为传统的静态文摘和考虑时序维度的动态文摘。传统的静态文本摘要只是针对于同一主题下同一时间段的媒体信息来生成摘要,但随着媒体信息的不断发展演化,信息具有明显的动态演化性。此时静态文摘并不能解决广大民众的需求,于是就出现了动态演化式文摘。动态演化式文摘是在静态文摘的基础之上引入了时间维度,它是针对同主题下不同发展阶段的媒体信息来生成摘要的,它不仅需要考虑摘要的主题相关性和冗余性,而且还要将文摘内容的连贯性和新颖性考虑在内,从而使得对应主题的文摘根据时间的变化而动态演化。本文提出了一种新的基于子主题增强的演化式多文档摘要方法,该方法不仅能考虑句子与句子之间的关系,还主动引入了每个时间段内的子主题对句子的影响,使得与重要子主题越相关的句子得分越高,通过句子与子主题的互强化来对句子进行主题层面的综合打分排序。在理论上此方法是可行的,其可行性在公开数据集Timelines17上得到了有效验证。在本文提出的方法之上,我们实现了一个演化式多文档摘要系统。该系统可以在新浪新闻首页在线获取用户所感兴趣的新闻,并且为每个新闻生成演化式的,用户可通过查阅文章的摘要来了解新闻的动态演化过程。
其他文献
进入到二十一世纪之后,随着互联网的普及、信息化的高速发展,互联网用户的数量和网络应用业务的种类不断增多,使得在网络上不良信息迅速繁衍,不法分子利用网络传递和散步大量
数字地球的发展已对社会生活的各个方面产生了巨大影响,围绕数字地球开展的一系列卓有成效的工作受到了人们的广泛关注。基于大众化的技术开发正在随着GoogleEarth平台和Goog
随着多媒体技术和互联网技术的发展,图像信息越来越得到人们的重视。如何有效、准确地从大量的图像数据库中查找出人们感兴趣的图像成为了人们亟待解决的重要问题。基于内容
Web 2.0的飞速发展使得人们在社交媒体中的参与度不断提高,随之产生的各种携带用户观点和情感的结构化与非结构化信息为研究者们提供了大量可研究的资源,对其进行情感分类可
在基于构件的系统中,随着用户需求、软件运行环境不断地发生变化,系统在运行中需要不停地进行更新,对于某些需要长期运行的关键业务系统,如卫星定位导航系统、金融系统等,这些关键
目前,随着移动智能终端设备计算能力不断增强与存储容量逐渐扩大,而其价格日趋低廉,使得移动智能终端设备得到大量普及。其中,流媒体终端应用日益为人们所喜爱。为移动智能终
电网是人们日常生活中的重要组成部分,为了保证电网的可靠、安全、经济的运行,同时也为了给低碳经济开辟道路,建设智能电网已成为当今发展的必然趋势,智能电网建设中的电力设备状态监测举足轻重,监测信息的实时通信也越发重要。本文中首先深入细致地研究和分析了IEC61850标准与制造报文规范的基本组成及特点,着重研究了IEC61850标准中的抽象通信服务接口模型的通信结构和服务以及特殊通信服务映射,而后依据I
随着虚拟现实技术和现代医学的快速发展,虚拟现实技术已被广泛应用到医学仿真中,形成虚拟手术仿真这一全新的研究领域。目前,随着现代医学的不断发展,内窥镜手术因其所具有的康复
传感器网络集成了传感器技术、嵌入式计算技术及现代网络技术于一体,一种新的信息采集和处理技术。无线传感器网络由于其前景广阔的应用前景而成为现代通信技术的一个新的研究
随着信息时代的到来,网络信息爆炸式增长,导致了各搜索引擎数据过载现象严重。如何快速有效地挖掘有用的知识,特别是提取网民对事件的情感、意见和态度等已成为重要的研究课