论文部分内容阅读
随着信息时代的到来,网络信息爆炸式增长,导致了各搜索引擎数据过载现象严重。如何快速有效地挖掘有用的知识,特别是提取网民对事件的情感、意见和态度等已成为重要的研究课题。文摘摘要技术是解决信息过载问题的关键手段之一,其目的是利用计算机自动地对给定的原始文档或者文档集进行摘要提取,生成一个简短连贯又涵盖原文核心内容的表述形式。然而,自动摘要研究是一项具有挑战性的任务。在其相关研究中,需要处理和解决冗余性、时间维度、句子排序和摘要优化等多个问题,这导致了文本摘要任务的复杂性,尤其是生成式摘要。目前,摘要质量的优化是自动文摘中最为关键的问题之一,其中最大边界相关算法(MMR)、整型线性规划(ILP)都是优化质量的经典方法。近年来,基于子模函数的摘要优化方法逐渐成为本领域的研究热点,它可以在有限的时间内以最优或接近最优的方式解决组合优化问题。本文介绍了一种基于子模函数的文档摘要句子选择和优化的研究方法,在特定约束条件下,采用贪婪算法可以解决单调的子模函数最大化问题,使得生成的机器以常数因子接近理想的标准摘要。具体工作主要包括以下两点:第一,提出了一种联合子模函数的多文本摘要优化选择的改进方法。该方法首先以句子作为结点,以句子对之间的联系作为边构建无向图。同时考虑文本内容相关性和多样性构建摘要选择集合函数,进行线性组合,采用贪婪算法选择句子优化摘要结果。此外,在传统TFIDF余弦相似度计算基础上,充分利用词的语义关系,分别从基于WordNet语义和基于WMD转移距离对句子相似度计算进行了改进。在标准的多文档摘要任务数据集DUC2004上进行实验验证了方法的可行性和有效性。第二,提出了一种基于子模函数的观点摘要研究的改进方法。该方法首先利用基于WordNet语义传播算法构建关于电影Aspect的本体树,进行评论句子分类。然后构建一类具有子模特性的目标函数来达到文本客观内容(含内容相关性和多样性)与主观情感(情感的覆盖性)之间的平衡,采用基于贪婪算法的局部枚举方式抽取重要句子构成摘要候选集。基于我们的方法,可以挖掘电影评论中覆盖多个Aspect和主观情感的观点句子。在Pang的极性分类数据集上分别从摘要质量和情感相关性进行实验验证了方法的可行性和有效性。