论文部分内容阅读
数据挖掘就是从大量的数据中提取有趣的、非平凡的、蕴涵的、先前未知的、而且是潜在有用的信息模式。它是根据人们的特定要求,从浩如烟海的数据中找出所需的信息来,供人们的特定需求使用。据国外专家预测,随着数据量的日益积累和计算机的广泛应用,在今后的5—10年内,数据挖掘将在中国形成一个新型的产业。聚类分析是数据挖掘中一项重要的技术。聚类的任务是把数据集中的对象组成多个有意义的子类,在同一子类中的对象彼此相似,不同子类中的对象不相似。从另外一个角度看待聚类分析就是孤立点的检测技术,其研究对象是数据集中偏离绝大多数对象的很小一部分数据。在许多KDD应用中,研究孤立点比研究聚类更有用、更重要。因为,在某些应用领域中研究孤立点的异常行为能发现隐藏在数据集中更有价值的知识。聚类和孤立点检测是两个相辅相成的方面,在聚类的过程中要决定如何处理孤立点的问题,寻找孤立点有时要使用一些聚类的方法。人们通过聚类或孤立点的分析,识别密集的或稀疏的区域,从而发现全局的分布模式,以及数据属性之间有趣的相互关系。目前的聚类技术和孤立点检测技术已经广泛应用在如数据挖掘、统计学、机器学习、空间数据库技术、生物学以及入侵检测和天气预报等等相关领域中,取得了很大的成功和实用价值。本文在分析了基于网格的聚类算法的思想和方法的同时,针对目前网格算法存在的一些缺陷提出了基于覆盖网格的聚类算法。并通过综合数据集上和真实数据集上做了大量的对比实验来验证其算法的正确性。试验结果表明:基于覆盖网格的聚类算法能够准确,有效的发现任意形状,大小的聚类。同时在执行效率和精度上也比其它的聚类算法更加合理有效。同时,在分析研究现有的基于密度的孤立点检测算法基础上,针对其性能和精度上的不足,提出了一种新的度量方法局部偏差系数和基于局部偏差系数的孤立点检测算法。实验结果表明:该算法在发现孤立点的技术上对于同一类基于密度的孤立点检测算法在性能和质量上都具有很大的优势。