论文部分内容阅读
我们生活在一个信息化的时代,各种信息急剧膨胀,“数据丰富,知识贫乏”成为人们越来越关注的问题。为了有效利用这些信息,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。聚类是数据挖掘领域中重要的技术之一,用于发现数据中未知的分类。聚类分析已有很长的历史,其重要性越来越受到人们的肯定。聚类算法是机器学习、数据挖掘和模式识别等领域的重要研究方向之一,在识别数据对象的内在关系方面,具有极其重要的作用,而作为数据挖掘技术手段之一的文本聚类有着非常广泛的应用前景。
文本聚类首先需要对文本进行预处理,通过分词、特征选择等过程将文本转化成计算机可处理的格式化数据如文本向量,然后使用聚类算法进行聚类。K-means算法由于操作简单、容易实现且时间效率高等优点而成为一种最常见的经典的文本聚类算法。而且,对初始值的依赖性和对噪声数据的敏感性等不足使得k-means算法的研究改进具有很大的发展空间。
本文针对k-means算法的优缺点提出了两种不同的改进算法。一种是基于不同相似度计算公式的k-means算法组合模式,即通过一种用于优化聚类结果的局部搜索算法将两种分别采用不同相似度计算公式的k-means算法组合起来,使得先运行的k-means算法和局部搜索算法尽可能为后运行的k-means算法提供较好的初始划分结果,取长补短;另一种是基于相对簇距离的k-means算法改进,即通过定义一种距离公式用于计算数据对象与聚类中心的相对距离,在划分过程中动态调整聚类中心,降低了算法对初始值的依赖性和对噪声数据的敏感性,改善了聚类效果。