论文部分内容阅读
随着互联网的普及、信息获取途径的增加,人们获得的信息日益丰富。为了从这些丰富的信息中快速、准确地获取有用信息,提高用户获取信息的效率,文档的自动摘要处理变得越来越重要。多文档自动文摘技术日益成为自然语言处理领域的一个研究热点。多文档自动文摘致力于从多篇同主题文档中将全面、简洁的摘要性文档呈现给用户,提高用户获取信息的效率。目前,多文档自动文摘领域的一个较成熟的方法是将文档集合中所有的句子按照多个特征的组合统一进行排序,按照顺序进行文摘句抽取,该类方法简单易行,但是随着摘要对象的多样化,对于文摘内容的主题覆盖度有了更多的要求,而此类方法很难在主题覆盖度与内容冗余之间到达平衡;另一类方法是从文档集合中发现摘要对象的潜在子主题,从不同子主题中进行文摘句抽取。该类方法通过文本聚类技术来发现潜在子主题,但目前大多数聚类方法在一定程度上都需要人为规定聚类的数目,并不能准确反映文本的实际情况,影响摘要效果。针对上述问题,本文提出了一种运用改进K-means算法自适应聚类的中文多文档自动文摘方案。主要研究工作如下:1、提出了一种自适应发现文档集合子主题的策略。在多文档自动文摘中,子主题的发现多通过聚类算法实现,本文应用一种改进的K-means聚类算法从整个文档集合的统计信息中确定类的个数,自适应地发现子主题,一定程度上克服了大多数子主题发现方法需由人工主观决定的缺陷。2、利用文档集合的统计信息确定初始聚类中心,而非随机选择。使得子主题中心的发现更加客观合理,采用基于质心方法提取的文摘句更具有子主题的代表性。3、在文本向量化的过程中,运用语言资源工具对向量空间模型(VSM)进行改进和优化,一定程度上了弥补了特征模糊、维数过高的缺陷。4、设计并实现了一个中文多文档自动文摘系统。实验证明系统得到的文摘具有良好的效果,验证了文中方法的可行性。