基于多样性选择模型的自动文摘研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：gx008

【摘要】

：

随着互联网信息，尤其是文本信息的爆炸式增长，如何让用户高效地获取最重要或者说最需要的信息已经成为学术界备受重视的问题。以Web InfoMall为例，从2001年以来，该系统已经保存了

【作者】

：

尹文鹏

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2013年期

【关键词】

：

自动文摘多样性选择模型收益递减原则语义相似度空间向量模型排序算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网信息，尤其是文本信息的爆炸式增长，如何让用户高效地获取最重要或者说最需要的信息已经成为学术界备受重视的问题。以Web InfoMall为例，从2001年以来，该系统已经保存了近60亿中文网页，而且现在每个周期保存的网页数量急剧增大。当用户输入查询“雅安地震”的时候，系统如何能以一种简洁明了的呈现方式给用户以反馈呢？自动文摘技术，正是面向这一需求应运而生的。它的直接目的就在于通过文本压缩技术抽取文档集中最核心最符合需求的文字来组成摘要。本文主要讨论基于抽取方式的摘要技术，它主要通过从原语料中抽取句子来组合为文摘，这也是目前主流的实现方案。　　一般认为，高质量的摘要应该同时满足内容的重要性和低冗余性等要素。目前通常的摘要研究是将该任务视为一个句子排序任务，通过各种排序算法获得句子的重要度序列，然后利用其它的措施在挑选最优句子的过程中实现冗余控制。通常，这些研究将高质量摘要所要求的属性分阶段实现。　　本文提出一种基于多样性的优化选择框架DivSelect，其基本原理是:在一个句子相似度邻接图上找到一个最优的顶点子集，使得它包含的句子在重要度和新颖度上综合指标最大化。经过理论证明，这样的最优子集选择任务是一个NP难问题，但是其满足的收益递减原则(Diminishing Return Property)使得寻找一个近似最优的迭代算法成为可能。DivSelect的优势在于:(1)能够将句子的权威度和新颖度同时考虑到一个优化选择框架内，使得找出来的句子在两方面都具有很好的表现;(2)本算法具有很好的通用性，不仅适合于摘要任务，其他例如网页搜索等领域同样适用。　　此外，鉴于构建句子邻接图中句子相似度计算的必要性，本文利用话题模型Latent Dirichlet Allocation(LDA)来设计了一个与传统VSM模型结构类似的话题空间向量模型(Topical Vector Space Model:TVSM)，以计算句子的语义相似度。通过使用比“词”更抽象更具有概括力的“话题”作为空间的维度，TVSM模型在MS Paraphrase Corpus和D.McLean数据集中进行句子相似度计算实验，取得了很好的效果。　　为了验证多样性选择模型DivSelect的性能，本文使用标准的DUC摘要数据集，对算法在通用式文摘和查询式文摘两个任务中进行了充分的实验。结果表明，DivSelect算法能够比当前几种代表性的摘要系统生成更高质量的文摘。同时，通过替换句子相似度算法TVSM为PLSA、LSA和VSM，本文不仅验证了TVSM对整个优化框架性能提升的优势，所有相似度计算模式下框架的优异性能也说明了DivSelect算法的健壮性。

其他文献

基于马尔科夫逻辑网络的共指消解研究

共指消解作为自然语言处理中的一个重要问题一直受到学术界的重视。所谓共指消解就是判断文本中出现的不同形式的指称语（包括专有名词、普通名词短语和代词）是否指示相同实体。

学位

共指消解马尔科夫逻辑网络特征学习中文零指代消解自然语言处理

云存储数据加密的研究与实现

随着云计算这一新兴技术的迅速发展，基于海量数据存储的云存储服务也受到了社会各界的关注。但在享受这种全新的数据存储服务给人们带来的便捷生活的同时，用户存储在云端上数据

学位

云存储数据加密分布式文件系统安全性

动态社交网络的社团结构发现研究

随着互联网的快速发展，基于Web的社会网络得到快速的传播和普及，它改变着人们的社交和生活习惯，影响着人们的思维方式。面对与日俱增的网络规模，直接对其进行整体分析和研究的难

学位

动态社交网络社团结构时间序列社团演变

基于对象的视频压缩及因特网传输算法的研究

网络技术的发展和计算机处理能力的不断提高，使得可视电话、视频会议以及视频点播等多媒体应用成为可能。但是到目前为止，通过因特网进行视频传输仍然很困难，这主要是因为因特网

学位

视频对象分割编码拥塞控制位率控制

贝叶斯网络增量结构学习及其在金融系统动态建模中的应用研究

如何全面而准确地建模金融系统中各因素之间的影响关系，并动态监控其变化情况是在当前金融分析领域面临的一个重要问题。传统的研究方法往往根据专家经验人工选择少量较为重要

学位

贝叶斯网络结构学习动态学习增量学习金融系统动态建模

基于压缩感知和量子干涉的水印算法研究

在当今世界,伴随着互联网通信技术的飞速发展,每天都有大量的信息在网络上传输,因此人们越来越重视多媒体信息的安全问题。为了保护图像信息的安全性,产生了一门可以隐蔽信宿

学位

数字水印量子水印压缩感知奇异值分解

基于形状的图像特征分析与检索技术研究

随着多媒体技术和网络技术的飞速发展,数字图像信息在各行各业中的应用日益广泛,如何从大量的图像信息中快速而准确地检索出所需的信息成了一个亟待解决的问题。基于形状的图

学位

形状检索系统全局特征自相似描述符视觉词典霍夫投票算法

基于SVM增量学习的联机中文手写字符识别研究

字符识别是模式识别领域的重要研究课题。随着计算机与互联网技术的发展，特别是智能终端的普及，联机手写字符识别已经成为人们现实生活的重要需求。汉字的种类繁多，结构复杂，且相

学位

联机中文手写识别支持向量机增量学习特征提取

基于USBKEY的可信启动的研究与实现

随着科学技术的发展与普及,计算机与网络在各个领域都获得了广泛的运用,信息安全问题日益凸显。可信计算是公认的解决计算机安全问题的一种有效途径。采用了可信计算技术的计

学位

GRUB可信计算可信启动可信引导USBKEY

骨龄自动评价系统中的手腕骨兴趣区域定位研究

骨龄指标在医学领域、体育领域和司法等领域有着广泛的应用，是目前医学图像处理领域重要的研究课题之一。现阶段对骨龄评价主要是通过人工方式对手腕骨X射线图像进行观察来获

学位

骨龄自动评价系统脉冲耦合神经网络算法手腕骨二值分割定位方法

基于多样性选择模型的自动文摘研究

其他学术论文