论文部分内容阅读
我国互联网信息技术发展迅速,互联网资源日益繁杂,而网络中海量的数据信息资源却没有被充分利用。互联网资源主要以HTML文本形式表示,因此采用文本挖掘技术可以高效低获取网络信息资源。作为文本挖掘技术的重要组成部分,文本聚类算法是目前国内外学者研究的热点和难点。本文采用“中华网BBS”中8个版块的数据集为研究对象,开展了对两种经典文本聚类算法Single-Pass和K-means的应用研究,分析了两种算法存在的不足并对其进行改进,得到了可靠的数据结果,证明了改进算法的可行性。主要工作如下:1.详细介绍了BBS文本数据(树状结构和表状结构)的采集过程,着重阐述了BBS文本的预处理过程,包括特征项的选取、BBS数据清洗以及BBS文本表示,获得了文本向量特征项的权值矩阵。2.详细介绍了经典增量式聚类算法Single-Pass的特点,针对该算法中“聚类质心不唯一”的缺陷提出“设定唯一聚类质心”的改进方案,降低了算法的时间复杂度;针对“算法聚类中心随机性强”的不足提出了“不断优化聚类中心”的改进方案,使得聚类中心的代表性更强。最后,基于“中华网BBS”文本数据对改进后的算法进行验证、分析,并与经典Single-Pass算法的聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效。3.详细介绍了经典划分式聚类算法K-means的特点,针对该算法中“聚类中心难以确定”的不足提出“选择最优聚类质心”的改进方案,改进后的算法得到了可靠的聚类质心。最后,基于“中华网BBS”文本数据对改进后的算法进行验证、分析,并与经典K-means算法聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效。4.在改进后的Single-Pass和K-means算法的数据预处理步骤中设置“回收类”,用于存放BBS中的无关帖,深入分析表明“回收类”中的无关帖包括广告贴、垃圾帖、图片贴等,并着重阐述了“回收类”中“其他话题贴”演化为未来“热帖”的可能。