论文部分内容阅读
数据挖掘可以从海量的数据中以精确和可靠的算法挖掘出有价值意义的新知识。而这些新的知识多种多样,可以丰富人们的眼界,可以作为储备知识,获取的知识可以为用户者提供准确的信息来源。现如今数据挖掘算法中比较重要的算法就是聚类算法,目前已经被广泛应用在数据分析、图像识别、机器学习等领域中。其中,基于密度的聚类算法在聚类分析算法中占有很重要的地位,在医疗、信息检索、市场营销、信息过滤、科学探测与工程等各个领域中都有很好的应用,该算法是聚类分析中的研究重点。DBSCAN算法作为基于密度聚类算法的经典代表,该算法不需要预先指定聚类簇数,可以在含噪声数据的数据集中识别任意数量和任意形状的聚类。然而,在其DBSCAN算法的过程中,该算法存在一些不足之处,如时间复杂度很高,需要消耗大量时间,并需要消耗大量的内存空间。DBSCAN算法开始执行时使用了全局的Eps、Min Pts这两个参数,该算法对这两个参数依赖性很大,参数的变化对聚类的结果影响很大。同时,对于密度不均匀的数据集,该算法的聚类结果较差。本文通过对DBSCAN算法基础性学习分析,针对算法的不足之处,做了如下研究:1、针对基于密度DBSCAN算法时间复杂度很大的问题,本文提出了一种基于参考点的快速密度聚类算法。新算法以k个参考点分布状态间接的反应了数据的分布状态,然后基于参考点对数据进行聚类分析。该算法保持了DBSCAN的优点,并且可以减少区域查询次数,降低I/O开销。理论和实验证明新算法能够有效地对大规模数据库进行聚类,且其执行效率明显高于传统的基于R*树的DBSCAN算法。2、针对输入参数的变化对基于密度聚类算法结果的影响和DBSCAN算法无法很好地聚类出多密度层次的数据集的问题,本文提出了一种基于k近邻和参考点的密度聚类算法。该算法将不均匀数据集看作为不同密度层次的聚类区域,通过查询数据集中每个点的k近邻来寻找聚类。首先基于第一个参考点即区域中心点(区域密度最大的点)进行聚类,通过引入离簇度和密度参数来直至达到区域边缘。同时,为了提高密度聚类的准确性,在聚类簇形成的过程,从候选参考点中发现参考点,加大了对参考点的选取条件。试验结果表明,该算法不仅能够发现任意形状、大小和密度的聚类,而且降低了聚类对输入参数的敏感性,增强了对密度不均匀数据集的聚类效果,提高了聚类质量的准确率。