论文部分内容阅读
当今世界正处于一个信息爆炸的时代,用户查询信息时常常被信息淹没,迷失在信息中,这大大降低了检索的效率。如何快速高效的进行信息的分类管理,为用户提供准确有用的信息,是一个需要迫切解决的问题。在这样的背景下,文本挖掘技术正受到越来越多的关注。文本聚类是文本挖掘的一个重要组成部分,它是聚类方法在文本处理领域的重要应用。文本聚类由于不需要类别的信息,能自动完成文本分组,已经得到广泛应用,如多文档自动文摘系统、搜索引擎、数字图书馆等。目前大部分聚类算法是基于向量空间模型的,这使得文本聚类面临高维性、高稀疏性和忽略语义信息的问题,影响了算法的性能和准确性。本文首先介绍了文本聚类中一些概念和方法,包括文本间距离计算、文本表示模型、文本预处理过程、聚类效果评价和常用的聚类算法等;接着介绍了《知网》的组织结构、相关概念和语义相似度的计算方法,同时也提出了一种改进的文本间相似度计算方法,将其和K-均值算法结合,通过实验数据,证明了该方法的正确性;最后介绍了本文的两种群智能算法,并提出了本文的基于语义相似度的群智能文本聚类算法。在文本预处理的特征提取阶段计算权重时,既考虑了词频和文档频率,也结合了词的词性和词在文本中的位置这两个因素;针对向量空间模型忽略了词的语义信息的问题,本文利用《知网》,通过词的语义信息,来计算文本相似度;针对前人研究的成果,提出了本文的算法,它是在文本相似度的基础上,融合了K-均值算法、蚁群算法和模拟退火算法,利用了它们各自的优点,避免了各自的缺点,通过实验数据,可以看出该算法的有效性。