论文部分内容阅读
近年来,由于在商务管理、市场分析、决策分析、科学探索等领域的实用性,数据挖掘已经引起了广泛地关注。在数据挖掘中,聚类技术是一个很活跃的研究领域。聚类就是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程,使得位于同一类中的对象有高度的相似性,而不同类之间对象差异较大。聚类技术可以广泛应用于模式识别、市场研究、图像处理等领域。
在过去的研究中,已经提出了许多优秀的聚类算法,具体可以分为划分方法、层次方法、基于密度的方法,基于网格的方法,以及基于模型的方法等。在这些方法中,层次方法和划分方法是两种基本的聚类技术。层次方法能找到比较好的聚类结果,然而,就计算量和存储需求而言,层次聚类算法是昂贵的。另一方面,许多划分聚类算法的运行时间与输入数据只是线性相关。但相对于聚类结果,划分方法没有层次方法好。联合划分和层次聚类方法的特征,提出多阶段聚类算法是近年来的一个研究热点。基于此,提出了一个新的联合划分和层次方法的多阶段聚类算法。
层次聚类算法中广泛应用的簇间距离度量方法有最小距离法、最大距离法,平均值的距离法、平均距离法。这些方法都容易受到噪声的影响,文献[37]提出了一种新的簇间距离度量方法。该度量方法采用簇中权值最高的代表点之间的距离作为簇间的距离,有效消除了噪声对聚类结果的影响。本文提出了一个由两阶段组成的聚类算法:首先运用k-均值算法将输入的数据集分成一些小的子集,然后用文献[37]提出的方法作为相似度计算方法以层次的方式合并这些子集。最后,对本文提出的多阶段聚类算法的时间和空间复杂度进行了分析,并进行了多次实验。实验结果表明,算法是正确和有效的。