论文部分内容阅读
日常生活中传播的绝大多数信息如书籍、杂志、网页等都是以文本的形式存在的。随着互联网的普及,信息传播速度不断加快,文本数据也呈现爆炸式增长。这些文本数据中蕴藏着很多有用的信息。因而,以文本数据为研究对象的文本挖掘技术受到越来越多的关注。作为文本挖掘技术的一个重要分支,文本聚类技术也一直备受关注。本文阐述了文本聚类的研究背景和意义、研究现状及存在的问题,详细介绍了文本聚类过程中涉及到的理论和技术,包括文本预处理技术、文本表示模型的构建方法、文本相似性度量方法、各类聚类算法及聚类评价标准等。在对聚类算法进行深入研究之后对算法进行改进,提高了文本聚类的效果。本文的研究内容主要包括以下几点:(1)提出了一种基于K近邻优化的密度峰值发现聚类算法。针对密度峰值发现聚类算法(Clustering by fast search and find of density peaks,DPC)在计算样本对象的局部密度时存在的主观性,利用K近邻信息对局部密度进行重新定义,并提出了一种K近邻优化的密度峰值发现聚类算法(Clustering by fast search and find of density peaks based on K-nearest neighbor,KDPC)。该算法弥补了DPC算法在定义局部密度时造成的缺陷。在人工虚拟数据集和真实数据集上的实验结果表明:该算法能够找到数据集的类簇中心,并确定其类簇的个数,且准确率高于DPC算法的准确率。(2)提出了一种基于密度峰值优化的K-means聚类算法。针对K-means算法在初始化时存在的缺陷,结合提出的KDPC算法,提出了基于密度峰值优化的K-means聚类算法(K-means based on improved density peaks,KDP-means)。该算法利用KDPC算法的思想来确定数据集的类簇中心和类簇个数,弥补了K-means算法在聚类之前需要给定类簇个数和初始聚类中心这一缺陷。在UCI数据集上的实验结果表明,该算法能够在一定程度上减少K-means算法的迭代次数和迭代时间,提高K-means算法的稳定性和准确率。(3)基于KDP-means算法设计了一个中文文本聚类系统。利用KDP-means算法设计并实现了一个中文文本聚类系统。该系统首先通过分词、去除停用词、建立向量空间模型等方法,将文本数据向量化并提取其主要特征,然后利用KDP-means算法对其聚类,并对聚类结果进行评价。本文采用来自搜狗实验室的“中文文本分类语料库”对该系统进行了实验,并根据相关评价标准对结果进行分析。聚类结果表明,与聚类算法中的两个代表算法K-means算法和Birch算法相比,KDP-means算法具有更高的准确率。并且KDP-means算法不需要事先确定初始聚类中心以及聚类个数,这使该算法具有更高的实际应用性。