论文部分内容阅读
数据挖掘是帮助人们在海量数据中发现信息和知识的工具。近年来数据挖掘技术成了商业智能的核心技术,被广泛应用到了诸多领域,引起了学术界极大的关注。聚类分析是数据挖掘中的一个重要研究领域,它从数据库中寻找数据间的相似性,从而优化大规模数据库的查询和发现数据中隐含的有用信息或知识。
普通的聚类算法无法有效地在高维空间上对数据进行聚类。投影聚类的出现带来了在高维空间上进行聚类分析的可行方法。一个投影聚类就是一个子空间上的数据集,聚类的成员投影在子空间每个属性上一个很小的范围内,而在子空间以外的属性上的投影则是均匀分布的。现有的多数投影聚类算法依赖于很难事先被用户确定的输入参数,或者很难找到相关维数很少的投影聚类。在本论文中,我们提出一种基于网格和密度的投影聚类算法,该算法在对输入参数很少依赖的情况下有效的发现投影聚类。相对于现有的很多投影聚类方法,我们的算法能够发现相关维很少的投影聚类。本文通过实验展示出算法的几个优点:(1)算法的聚类结果对输入参数的变化不敏感,且输入参数宜于确定(2)能够有效的在高维空间上发现较低维的子空间上的投影聚类;(3)对于数据空间的维度和规模的变化,算法具有较高的稳定性。