论文部分内容阅读
近年来,数据挖掘逐渐成为研究的热点。数据挖掘是从大量数据中发现知识,源于诸如数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。
聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类是数据挖掘的一个活跃的研究领域,对聚类的研究与实现具有重要的理论与实践意义。
本文研究数据挖掘中的聚类算法。针对现有的聚类算法中存在的问题,提出了几个新颖的算法。本文的主要贡献和创新工作包括:
1)为提高密度聚类算法效率并处理非空间属性约束,提出了基于网格和密度的聚类算法(GDBS)。GDBS具有密度算法的优点,也就是能发现各种形状的聚类并能屏蔽噪声点,而且执行效率还明显优于密度算法。
2)研究了CHAMELEON算法,剖析了在类间密度相差不是特别大时,该算法不能作出正确聚类的原因。通过实验发现严格k-最临近集(SKNN)比一般的k-最临近集(KNN)更能反映数据集密度的变化。
3)引入SKNN和LIN,用新的SIM(A,B)作为相似度指标代替RI(A,B),对CHAMELEON作了一种改进。本算法可以很好的区分不同密度、形状和大小的类,并且抗噪能力较好。算法对参数的选择也不是很敏感。
4)基于严格最近邻和共享最近邻的思想,提出一种新的相似度标准,并设计出一种新的SKNN聚类算法。该算法能够有效地处理包含有不同密度的簇的数据,并且能够很好地区分相连着的类密度相差不是太大的簇。而且在处理高维数据时,具有较低的时间复杂度。
5)搭建了模拟实验环境,通过模拟实验验证了本文算法的有效性。