论文部分内容阅读
【摘 要】K-means 算法是最常用的聚类算法之一,有很多的优点,但也存在着不足。它不仅对样本的输入顺序敏感, 可能产生局部最优解,而且受孤立点的影响很大。文章首先探讨了k-means算法的思想与实现,并进一步研究了算法优缺点。
【关键词】聚类分析 聚类算法 K- means算法
聚类,即将数据对象按其性质特征进行分组,使得组内数据间的相似度最大,而组间的数据相似度最小。组通常也被称为簇。目前已经提出许多聚类算法,这些算法可划分为:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等。基于划分的方法具有坚实的数学理论基础,所以,虽然此类聚类技术出现较早,但依然受到业界的重视。
一、基于划分的聚类方法
给定一个数据对象,该对象包含了数据库的N,和簇的数目以生成算法的基础上进入目标组织的数据划分为K个(K≤N),其中每个分区代表一个集群。这种分工的K满足以下条件:
(一)每个分区包含至少一个数据记录;
(二)每个数据记录属于一个且只有一个分区(注:这需要一些模糊聚类算法可以适当放宽)。
对于一个给定的K值,给出一个初始的算法首先划分方法,迭代法改变师,这样每次划分方案,改进后的第一个比以前更好,所谓的好标准是:在同一部门记录越近越好,不同的分工尽可能记录。
使用这个想法算法:k-means算法,K-medoids算法,CLARANS算法。经常使用的分区标准(通常称为相似性函数),如距离在同一个集群的对象是“相似”,而不同的对象集群中的“异种”。
二、k-means算法的思想与实现
基于分区的聚类算法,k-means算法是最简单的。 K-means算法与k n个对象作为输入参数,组合成k个聚类,结果使得集群内的相似性高,而簇间的相似度低。与k-means算法的过程如下:
(一)随机分配到所有K表对象非空簇;
(二)计算出的平均值为每个群集的平均值,表示相应的群集;
(三),根据它们之间的距离从每个群集的中心中的每个对象,它重新分配到最接近的群集;
(四)把前两个)的步骤,直到收敛标准功能。
参考文献:
[1] 韩家炜.数据挖掘——概念与技术[M](范明,孟小峰译).机械工业出版社.2001.
[2] 行小帅,焦李成.数据挖掘的聚类方法.电路与系统学报,1(2003),59-67.
[3] Aristidis Likas, Nikos Vlassis, Jakob J. Verbeek. The global k-means clustering algorithm. Pattern Recognition 36 (2003) 451-461.
[4] Raymond T. Ng, Jiawei Han. Efficient and Effective Clustering Methods for Spatial Data Mining. Procedings of the 20th VLDB Conference, Santiago, Chile, 1994,144-155.
【关键词】聚类分析 聚类算法 K- means算法
聚类,即将数据对象按其性质特征进行分组,使得组内数据间的相似度最大,而组间的数据相似度最小。组通常也被称为簇。目前已经提出许多聚类算法,这些算法可划分为:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等。基于划分的方法具有坚实的数学理论基础,所以,虽然此类聚类技术出现较早,但依然受到业界的重视。
一、基于划分的聚类方法
给定一个数据对象,该对象包含了数据库的N,和簇的数目以生成算法的基础上进入目标组织的数据划分为K个(K≤N),其中每个分区代表一个集群。这种分工的K满足以下条件:
(一)每个分区包含至少一个数据记录;
(二)每个数据记录属于一个且只有一个分区(注:这需要一些模糊聚类算法可以适当放宽)。
对于一个给定的K值,给出一个初始的算法首先划分方法,迭代法改变师,这样每次划分方案,改进后的第一个比以前更好,所谓的好标准是:在同一部门记录越近越好,不同的分工尽可能记录。
使用这个想法算法:k-means算法,K-medoids算法,CLARANS算法。经常使用的分区标准(通常称为相似性函数),如距离在同一个集群的对象是“相似”,而不同的对象集群中的“异种”。
二、k-means算法的思想与实现
基于分区的聚类算法,k-means算法是最简单的。 K-means算法与k n个对象作为输入参数,组合成k个聚类,结果使得集群内的相似性高,而簇间的相似度低。与k-means算法的过程如下:
(一)随机分配到所有K表对象非空簇;
(二)计算出的平均值为每个群集的平均值,表示相应的群集;
(三),根据它们之间的距离从每个群集的中心中的每个对象,它重新分配到最接近的群集;
(四)把前两个)的步骤,直到收敛标准功能。
参考文献:
[1] 韩家炜.数据挖掘——概念与技术[M](范明,孟小峰译).机械工业出版社.2001.
[2] 行小帅,焦李成.数据挖掘的聚类方法.电路与系统学报,1(2003),59-67.
[3] Aristidis Likas, Nikos Vlassis, Jakob J. Verbeek. The global k-means clustering algorithm. Pattern Recognition 36 (2003) 451-461.
[4] Raymond T. Ng, Jiawei Han. Efficient and Effective Clustering Methods for Spatial Data Mining. Procedings of the 20th VLDB Conference, Santiago, Chile, 1994,144-155.