论文部分内容阅读
聚类分析向来是数据挖掘研究的重要方面,基于聚类的各种数据挖掘算法的研究历来也是研究重点。但是,目前大多数的聚类分析算法只是针对于静态数据集的操作,对于动态数据集却只能采取对整个数据集重新进行聚类的方式,因此随着数据量的不断增大以及对数据集实时数据挖掘的需求不断加大,增量式数据挖掘技术正越来越引人关注。 基于聚类的增量式数据挖掘继承了已有聚类的执行成果,通过对新增数据的逐个或者批量考查,可在很大程度上避免大量的重复计算,减少了计算量,节省了系统开支,提高了效率,尤其数据量越大时,增量式的数据挖掘技术就越能体现出其优越性,也更能为有数据挖掘需求的用户提供及时、快捷、有价值的信息内容。 本文首先主要总结、探讨了关于数据挖掘以及聚类算法等方面取得的已有主要研究成果,并详细阐释了基于密度的聚类算法DBSCAN的主要思想、算法流程,并给出了实例以演示算法。在此基础上,提出了基于DBSCAN的增量式聚类算法Incremental DBSCAN,由于Incremental DBSCAN采用了逐个考察新增数据的处理方式,为了达到更好的运行效率,进一步提出了Incremental DBSCAN的批量处理算法。 最后,通过实验验证了DBSCAN与Incremental DBSCAN在聚类效果上的一致性,以及Incremental DBSCAN在大数据量环境下更加卓越的性能。