论文部分内容阅读
随着数据收集和数据存储技术的快速进步,人们积累海量数据的能力急剧提高。然而,提取有用的信息已经成为当今社会面对的巨大挑战。数据挖掘技术将传统的数据分析方法与处理大量数据的复杂方法相结合,在数据库技术、并行计算、分布式计算等技术的基础上,汇集统计学、人工智能、机器学习和模式识别等领域的知识,从海量数据中发现有价值的信息。随着数据挖掘技术的迅速发展,聚类分析作为其重要组成部分,已经广泛应用于数据分析、图像处理、市场研究、模式识别等许多领域。而聚类分析算法的研究也已经成为数据挖掘研究领域中非常活跃的一个研究课题。
基于密度的聚类算法是数据挖掘聚类算法中的一个重要分支。它在给定合适的参数的情况下,寻找被低密度区域分离的高密度区域。而在现实生活中,不同的簇往往有不同的密度,存在高密度区域和低密度区域均为有价值的对象组的情况。在处理密度变化较大的簇时,现有密度聚类算法就会遇到麻烦。
当前国内外对密度聚类算法的研究集中于密度聚类算法研究和预处理过程,并针对特定的数据特征开发出了多种密度聚类方法,如基于中心的密度聚类方法、基于网格的密度聚类方法、基于密度函数的密度聚类方法和结合其他算法的密度聚类方法等。本文在全面综述目前常用密度聚类方法的基础上,详细比较了DBSCAN的现有改进算法,指出了这些密度聚类方法在聚类分析密度变化大的数据集时存在的严重弊端及局限性,并且指出这些密度聚类方法缺乏参数自动选择功能,而合适的参数选择对绝大多数算法的聚类效果都是很重要的。
针对密度不稳定的数据集,为了能够同时、分别寻找出不同密度的簇,同时保留密度聚类算法能够处理任意形状和大小的簇、相对抗噪声、结果易于理解等优点,本文提出了一种基于k-dist图的变密度DBSCAN改进算法:VDBSCAN。其基本思想是:通过k-dist图和图中相邻对象的k-dist差值分析,对数据集中的不同密度层次自动选择一组Eps值,分别调用DBSCAN算法。不同的Eps值,能够找到不同密度的簇。VDBSCAN算法在一定程度上克服了以往大多数密度聚类方法的缺点,并且实现了部分参数的自动选择,避免了人工确定参数的主观性影响。通过实验验证该方法可以有效地聚类密度不均匀的数据集,且参数的自动选择方法也是有效的和健壮的。最后,将VDBSCAN算法应用于支出数据集Expenditure Raw,并取得了良好的效果。