论文部分内容阅读
在数据挖掘中,聚类分析是一个重要研究方向,它研究的内容、方法和工具被广泛应用于现实生活中。比如金融诈骗、医疗事故诊断、图像处理、信息检索和生物科学等领域。近年来,聚类算法研究成为一个非常热门的研究领域并且取得了丰硕的成果。然而,随着科学技术的不断发展,数据规模不断的扩大,研究数据的属性也不单单是数值型数据,出现了分类数据和混合数据。针对高维大数集的特点数据分布具有稀疏性、噪声数据较多,当维度很高时,还可能出现“距离趋零现象”,即距给定数据点最远及最近的数据点间的距离差随着维度的增加日趋减小。由于分类属性数据缺少固定的几何模型,不能将原有的数值属性数据聚类算法应用于分类属性数据中。因此,分类属性数据聚类算法的研究引起了广泛地关注并被作为一项重要的研究内容。本文主要研究在模糊K-Means和模糊K-Modes聚类算法框架下,引入了分治法,对大数据集和分类属性数据聚类算法进行了扩充,研究成果如下:(1)基十分治法的大数据集聚类方法是将大规模数据集分成若干个子集,对每个子集同时聚类,最后对各个子集的聚类结果合并,得出最后的聚类结果。此方法克服了大规模数据数据量大、维数高可能出现的“距离趋零现象”的不足,同时由于将大规模数据分解为小规模的数据的聚类减少了聚类的复杂度。此方法在人造数据集上进行了实验,实验结果表明基于分治法的大数据集聚类方法是有效的。(2)基于分治法的分类数据集聚类方法是将分治法应用于模糊K-Modes聚类算法中,把庞大复杂的分类数据集分解为几个规模较小的子集进行聚类,最后把子集的聚类的结果进行融合得到最后的聚类结果。此方法克服了分类数据缺乏固有的几何模型而只是简单的0-1匹配相似性度量,由于数据规模庞大而造成的“距离趋零现象”的现象发生。此方法在UCI数据集上进行了验证,并与传统K-Modes和模糊K-Modes聚类算法进行了比较,实验结果说明了基于分治法的分类数据集聚类方法是有效的。本文提出了基于分治法的聚类算法,并在UCI数据集上对算法的有效性进行了验证。