论文部分内容阅读
随着信息技术飞速发展,在信息处理过程中,人们发现信息的数据量越来越大庞大。如何从大量的信息数据中获取人们所需要的知识?如:数据的分布,数据发展趋势等等,因而聚类作为一门数据分析工具也就应运而生,所谓聚类就是将物理或抽象对象的集合组成由类似的对象构成的多个类或簇的过程[1]。目的是使得属于同一类别的个体之间的差别尽可能的小而不同类别的个体之间的差别尽可能的大。目前聚类分析中大部分聚类算法都是针对低维数据的,而现实中涉及到信息处理数据大部分都是高维的,这就向传统的聚类算法提出了挑战。文献[2]中提到,用传统的聚类算法如K-Means和K-Medoid方法直接处理这些高维数据效果非常不理想,于是人们采用“特征提取”方法来降低数据集的维度,例如PCA算法,但这种降维方法很容易导致数据的信息丢失。最近的研究表明,在特定条件下高维数据的聚类都隐含在低维的子空间内,如何找出这些有效的低维子空间?Agrawal等人[3]提出了投影聚类方法。投影聚类是把数据集通过映射变换投影到低维子空间内,然后借助各种方法划分出该子空间内的聚类,能够有效的降低数据集的维度,同时减少数据处理的复杂度。现有的投影聚类算法有:CLIQUE[3],PROCLUS[4],ORCLUS[5]和EPCH[2]等。CLIQUE算法是首次涉及投影聚类与子空间问题,但是该算法要求子空间的延伸方向必须要与坐标轴平行,并且还需要用同一个极限值来划分不同投影维度的子空间,这显然是不合理的;而PROCLUS和ORCLUS算法则主要通过寻找中心点来得到投影聚类和它们相关的子空间。PROCLUS要求发现投影的子空间延伸方向必须与平行,但ORCLUS算法没此限制,可以是任意延伸方向的子空间。EPCH算法[2]也是用来解决同样的问题,但它与前几个算法相比不仅复杂性降低了,而且有效性和精确性有很大的改进。通过分析EPCH算法,结合投影聚类的思想,我们采用不同的方法来划分子空间,提出了两个改进算法,分别是:1)基于Parzen窗的投影聚类方法:该方法用投影聚类将高维数据投影到低维子空间,再用概率密度估计函数Parzen模拟子空间样本分布,通过合并密度区域得到聚类结果,实验证明其具有比EPCH更为精确的效果。2)基于Mean-Shift的投影聚类算法:该算法提出了一种用核函数将高维数据空间转化为低维空间,然后将低维子空间中数据划分到中心点代表的区域中,得到合并的聚类结果,实验证明其有效性。本文主要是介绍聚类分析的基本概念、各种聚类算法及本人提出的两个改进算法。