论文部分内容阅读
随着互联网信息,尤其是文本信息的爆炸式增长,如何让用户高效地获取最重要或者说最需要的信息已经成为学术界备受重视的问题。以Web InfoMall为例,从2001年以来,该系统已经保存了近60亿中文网页,而且现在每个周期保存的网页数量急剧增大。当用户输入查询“雅安地震”的时候,系统如何能以一种简洁明了的呈现方式给用户以反馈呢?自动文摘技术,正是面向这一需求应运而生的。它的直接目的就在于通过文本压缩技术抽取文档集中最核心最符合需求的文字来组成摘要。本文主要讨论基于抽取方式的摘要技术,它主要通过从原语料中抽取句子来组合为文摘,这也是目前主流的实现方案。 一般认为,高质量的摘要应该同时满足内容的重要性和低冗余性等要素。目前通常的摘要研究是将该任务视为一个句子排序任务,通过各种排序算法获得句子的重要度序列,然后利用其它的措施在挑选最优句子的过程中实现冗余控制。通常,这些研究将高质量摘要所要求的属性分阶段实现。 本文提出一种基于多样性的优化选择框架DivSelect,其基本原理是:在一个句子相似度邻接图上找到一个最优的顶点子集,使得它包含的句子在重要度和新颖度上综合指标最大化。经过理论证明,这样的最优子集选择任务是一个NP难问题,但是其满足的收益递减原则(Diminishing Return Property)使得寻找一个近似最优的迭代算法成为可能。DivSelect的优势在于:(1)能够将句子的权威度和新颖度同时考虑到一个优化选择框架内,使得找出来的句子在两方面都具有很好的表现;(2)本算法具有很好的通用性,不仅适合于摘要任务,其他例如网页搜索等领域同样适用。 此外,鉴于构建句子邻接图中句子相似度计算的必要性,本文利用话题模型Latent Dirichlet Allocation(LDA)来设计了一个与传统VSM模型结构类似的话题空间向量模型(Topical Vector Space Model:TVSM),以计算句子的语义相似度。通过使用比“词”更抽象更具有概括力的“话题”作为空间的维度,TVSM模型在MS Paraphrase Corpus和D.McLean数据集中进行句子相似度计算实验,取得了很好的效果。 为了验证多样性选择模型DivSelect的性能,本文使用标准的DUC摘要数据集,对算法在通用式文摘和查询式文摘两个任务中进行了充分的实验。结果表明,DivSelect算法能够比当前几种代表性的摘要系统生成更高质量的文摘。同时,通过替换句子相似度算法TVSM为PLSA、LSA和VSM,本文不仅验证了TVSM对整个优化框架性能提升的优势,所有相似度计算模式下框架的优异性能也说明了DivSelect算法的健壮性。