论文部分内容阅读
随着科学技术的快速进步,人们已经被大量数据淹没,已经越来越没有时间看数据了,造成人们无法快速找到所需要的信息的困境。在面对大量数据时,必须找到有效的方法,可以自动的进行数据分类分析、数据汇总以及标记异常数据。数据挖掘就是在解决上述问题过程中而产生的技术。聚类技术作为数据挖掘的一个主要技术方法,是将相似的数据划分为簇,提供给人们针对自己的需求甄选数据的方法。目前,研究人员已经设计出了众多的聚类算法,其中基于层次的聚类算法一直是在应用领域中最有发展前景的算法,受到了广大学者的密切关注。首先,本文简单介绍了一下数据挖掘技术,之后针对聚类分析方法进行了深入的研究分析,总结了聚类算法应具备的特征,详细介绍了经典聚类算法的主要思想、代表算法并对比了各类算法的优势和缺陷。其次,针对Chameleon算法需要人为给出聚类的相关参数以及合并簇操作时不可逆的缺点,提出一种基于模块度的可回溯聚类算法BM-Chameleon。该算法会自动找到最适合本数据集的聚类参数,同时实现了回溯操作,保证得到最好的聚类效果。利用模拟数据对Chameleon算法和BM-Chameleon算法进行实验分析,结果显示BM-Chameleon算法可很好的改善聚类结果的质量。最后,为了解决引入模块度和回溯机制后Chameleon算法运行时间增加的问题,设计了一种混合聚类算法KBMC算法,将BM-Chameleon算法与传统的基于划分的k-means算法相结合,保证了聚类结果的精确度的同时也改善了算法的时间复杂度。使用模拟数据和实际数据对原算法和改进算法进行实验分析,结果显示KBMC算法具有更高的聚类准确度和更为理想的时间复杂度。