论文部分内容阅读
近年来随着互联网科技与技术的快速发展,数据所携带的信息也越来越多,如何从这些大量的数据中发现有用的信息与期望的规律是亟待解决的问题,由此产生数据挖掘这门学科。作为数据挖掘中的关键技术之一的聚类算法,它主要用于在未知类的数据集合中发现并归纳出不同的类,在面对大量的非结构化数据时,文本聚类逐渐成为学术研究和人们关注的热点问题之一。由于文本数据具有高维、稀疏、非结构化等特点,不同的特征选择方法对聚类的效果有着重要的影响。近年来,群智能算法由于其良好的寻优能力和全局搜索能力得到了深入的研究,且被广泛应用于许多领域,并取得良好的效果。本文的研究目的、方法与结果如下:1、深入研究骨干粒子群算法(Bare Bones Particle Swarm Optimization,BBPSO),针对骨干粒子群算法的易于早熟,易陷入局部最优解等缺点,提出了一种基于冯诺依曼拓扑结构的改进骨干粒子群算法(Von Neumann BBPSO,VBBPSO)。该算法提出“兼顾落后粒子”的概念,应用冯诺依曼拓扑结构构造邻域,运用邻域最优解取代全局最优解。此外,该算法引入中心项调节系数,在邻域范围内调整BBPSO算法的进化中心项与离散控制项,提高算法的全局搜索能力与局部开发能力。2、系统性的分析文本聚类问题的难点,文本向量化后数据维数较高,数据空间的分布较为稀疏,空间向量之间会存在潜在的语义结构。而传统的K-means算法难以准确地预设初始聚类的数目K,聚类结果受初始中心影响,造成对噪声点敏感,聚类不稳定等缺点。针对以上问题,本文结合奇异值分解(Singular Value Decomposition,SVD),提出了一种改进的K-means中文文本聚类算法(SVD-Kmeans)。该算法首先根据SVD分解的物理意义对数据集进行粗糙的类型判别,同时利用其数学意义对文本数据进行平滑处理,将类型判别后的类别作为K-means算法的初始聚类的中心点。3、针对文本向量空间高维、稀疏等特点,将VBBPSO算法应用到中文文本特征选择中。首先将文本向量进行编码把离散问题转化为线性问题,并为文本聚类特征选择算法设计出新的适应度函数。其次,利用改进的骨干粒子群算法进行寻优,将选出的全局最佳粒子进行解码,从而确定选出的文本特征。最后,根据选出的文本特征向量,利用SVD-Kmeans算法进行文本的聚类。聚类结果显示VBBPSO算法用于文本的特征选择能有效的优化聚类质量,同时对大部分聚类算法都有一定的效果。