论文部分内容阅读
目前以文本形式存在的有用信息越来越多,因此怎样快速并高效的聚类与分类这些大规模的文本信息变得越发重要。针对这一问题,文本的自动聚类和自动分类技术应运而生。文本聚类技术是将文本划分到不同的类别中去,是在结合了机器学习和统计方法的理论基础上的,已经得到了较为广泛的实际应用,并且已经能够较好的解决海量文本信息归类的问题。目前在文本聚类研究领域中,主要有文本的表示以及聚类器算法两个研究热点。针对于文本表示方面,文本数据经过预处理通常会获得具有较大稀疏性以及高维性的文本表示空间,并会导致文本聚类质量的下降和效率的降低。在聚类器的算法中,文本聚类器主要有K-Means算法、K-Medoids算法、CURE算法、BIRCH算法、DBSCAN算法等,如何将这些算法进行改良,使得它们更适合于提高文本聚类的质量和效率,也是现在研究的热点问题。本文首先在绪论部分对文本聚类的产生背景、基础理论和研究进展情况进行了简要介绍,随后详细介绍了在文本聚类技术中常用聚类算法的基本信息,主要包括有算法思想、种类以及它们的理论依据等,以及文本聚类算法的常用公认数据集以及文本聚类算法的结果评价标准,并详细介绍了文本聚类流程中所使用到的关键技术。其中本文在深入研究和分析文本聚类的研究现状以及目前针对文本聚类的研究中所彰显的问题的基础上,将研究重点放在了两个问题上:一是如何设法对文本聚类的算法进行优化,从而使文本聚类中的聚类器性能得到提升;二是通过充分的对比实验来对本文提出改进方法是否具有预期的有效性进行验证。本文开展完成了以下工作:(1) K-Means算法作为最为常用的文本聚类算法之一,具有算法复杂度相对比较低,并且算法实现简单等优点,但它也有较明显的缺点:算法在聚类初始中心的选择上过于敏感,原始算法中所使用的随机选择初始聚类中心点的方法,会导致聚类器性能不稳定,针对于K-Means算法的这个缺点,本文提出了基于可变阈值的K-Means聚类初始中心选择方法,在选择初始聚类中心点时,会依次选择距离已有初始中心点的距离大于一个不定阈值的样例作为下一个新的初始聚类中心点,并根据满足条件的初始聚类中心点的个数对该不定阈值进行适当调整,直至获得满足条件的阈值以及初始聚类中心点,再进行聚类操作。在10个UCI数据集和4个文本数据集上的实验结果显示,该算法性能明显优于原K-Means算法。(2)层次聚类分析作为数据挖掘和模式识别领域中非常重要的研究课题之一,同样具有非常广阔的应用前景。受启发于决策树学习中对最佳分类属性的选择,本文提出了一种新的引入信息增益的层次聚类算法,该算法通过引入的信息增益方法对样例的的属性进行加权操作,进而对原始层次聚类算法进行指导,由此来提高聚类结果的质量。在10个UCI数据集和4个文本数据集上的实验结果显示,该算法性能明显更优于原层次聚类算法。