论文部分内容阅读
文本聚类技术作为文本挖掘中的一个技术分支,发挥着越来越重要的作用。文本聚类技术能够将相似的文本进行归类,方便了各个领域的人员从海量的文本信息中挖掘潜在的、有价值的信息。本文采用复旦大学中文文本语料库进行文本聚类研究,根据文本的相似度并结合相应的聚类算法将相似的文本聚集成簇。因为中文文本自身的结构特点,在文本聚类之前需要对文本进行相应的文本预处理,即对文本进行分词并去除无用的停用词。本文使用中科院分词系统(ICTCLAS)对文本分词并使用哈工大停用词表过滤停用词。接着为了得到能够有效表示文本内容的特征词,进行特征词的选择。最后考虑到计算机不能直接处理非结构或者半结构的信息,本文采用向量空间模型(VSM)来表示文本、词频-逆文档频率(TF-ID F)值来表示每个特征词的权重值。通过分析文本处理的整个过程发现,如果直接将预处理后的关键词直接组成向量空间模型,那么该模型就会存在着维度过高和数据元素稀疏问题。为了解决其问题,本文首先分两步对特征词进行筛选,第一步使用卡方检验的方法对特征词初步提取,得到特征词集合,第二步对特征词集合进行基于语义的层次聚类,合并特征词集合中同义或者相近的词。接着,计算过滤后特征词集合中每一个词的TF-II)F值并生成向量空间模型。然而,此时生成模型仍然具有着高维度和元素稀疏的缺陷,本文采用奇异值分解的方法,找到向量空间模型的隐含语义空间,实现向量空间模型的降维并减少了噪声点的干扰。通过以上方法的处理,保持了原有模型的特性,有效的降低了矩阵的维度,提高文本聚类的效率。文本降维处理后,接下来就是选择合适的文本聚类算法。目前存在较多的文本聚类算法,根据聚类实现方法的不同大致可分为基于划分、层次、密度、模型聚类方法。传统的文本聚类算法存在需预先确定簇数、无自组织等不足。所以本文采用了可以实现自组织的蚁群文本聚类算法作为最终的文本聚类算法。通过分析基本的蚁群文本聚类算法可知,基本算法中也存在着诸多的不足,比如迭代的次数过多、蚂蚁在二维平面中移动过于随机等等,这些因素影响了算法的收敛速度和文本聚类效果。本文在基本算法的基础上,采用了几种改进的措施,它们分别是修改算法终止条件使算法的结束不在简单的依赖最大迭代次数,避免了无意义空耗时间;动态调整蚂蚁的观察半径使蚂蚁以线性递减的方式调整观察半径,平衡了算法收敛速度和聚类效果;制定三种移动策略使蚂蚁在拾起、放下文本后移动的方向具有了目标性,提高了文本聚类的效果。最后,通过相关的实例展示了本文采用的文本降维方法的具体实现过程,证明了方法的可行性。使用复旦大学中文文本语料库进行了仿真实验,实验结果表明,改进后的蚁群文本聚类算法不仅加快了文本聚类的收敛速度而且提高了文本聚类结果的精度,完善了文本聚类的效果。