论文部分内容阅读
数据挖掘技术可以从大量数据中发现潜在的、有价值的知识,它给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要的组成部分,网格聚类技术已经被广泛的应用于数据分析、图像处理、市场研究等许多领域。网格聚类算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。 本文介绍了数据挖掘理论,对网格聚类算法进行了深入地分析研究。在研究了传统网格聚类算法的基础上,提出了网格边界处理聚类算法,该算法使用边界处理技术提高了网格聚类的精度;针对网格聚类算法对参数敏感的问题,提出了一种基于网格的参数自动化聚类算法,该算法使用参数自动化技术解决了算法对参数敏感的问题;在分析了传统的多密度聚类算法的基础上,提出了基于网格的多密度聚类算法(Grid-based Clustering Algorithm for Multi-density),该算法主要采用密度阈值递减的多阶段聚类技术提取不同密度的聚类,使用边界点处理技术提高聚类的精度,同时对聚类结果进行了人工干预。 本文使用Visual C++6.0实现了网格的边界处理聚类算法、参数自动化的网格聚类算法、基于网格的多密度聚类算法、SNN算法,做了大量的对比实验,其中包括基于网格聚类的正确性实验,在综合数据集上的实验,在网络入侵真实数据集的实验以及对均匀密度的数据集实验等。 实验结果表明,网格边界处理聚类算法可以很好的对边界点进行处理,从而提高了聚类结果的精度;基于网格的参数自动化技术可以很好的处理传统网格聚类算法对参数敏感的问题;基于网格的多密度聚类算法不仅能够对数据集进行正确的聚类,同时还能有效的进行孤立点检测,有效的解决了传统多密度聚类算法中不能有效识别孤立点和噪声的缺陷。基于网格的多密度聚类算法比传统的共享近邻SNN算法精度高,适合于均匀密度数据集、大部分多密度数据集,并且可以发现任意形状的聚类,对噪声数据和数据输入顺序不敏感,但对小部分多密度数据集的聚类结果不理想。