论文部分内容阅读
聚类分析是数据挖掘领域中一项重要的研究内容,其目标是在没有任何先验知识的前提下,根据数据之间的距离(欧式距离、曼哈顿距离等)或者相似性将数据对象划分为不同的簇(类),使得相同簇中的元素尽可能相似,不同簇中的元素差别尽可能的大。聚类已经在信息过滤、资料自动分类、市场分析等领域得到了广泛的应用。高维聚类作为聚类中一项新的任务已经引起了研究人员的广泛关注,由于高维数据所特有的“稀疏性”和“维度效应”,传统的聚类算法在处理高维数据时效率往往很低甚至失效。而现实生活中又存在着大量的高维数据,如零售交易数据、文档数据、空间数据、地理数据、多媒体数据、网络访问数据、时间序列数据、基因数据等都可以达到成百上千维,甚至更高。由于高维数据的普遍性,因此研究针对高维数据的聚类算法具有非常重要的意义。现有的高维聚类方法主要有以下三种:(1)基于属性约简的方法;(2)基于子空间的方法;(3)其他方法。本文在对现有高维聚类算法进行了深入研究的基础上,提出了一种基于相似维的高维子空间聚类算法SDSCA.算法首先通过Gini值来删除原高维数据空间中的冗余属性,然后运用相似维来寻找彼此相似的属性,最后在这些相似属性所形成的子空间上运用传统聚类算法来进行聚类。实验结果表明算法是有效的,并且能够很好地避免冗余属性的干扰。本文还提出了一种改进的基于相似模式的子空间聚类算法PPSC*,在两方面对原算法PPSC进行了改进:(1)通过Gini值将数据集中的冗余属性删除;(2)将具有较少聚类信息的事务数据库剔除,只对含有信息多的事务数据库来建立P-tree进行频繁子空间和聚类挖掘。通过实验验证了改进后的算法比原算法具有更高的时间效率。