论文部分内容阅读
在信息和知识经济时代伴随着计算机技术和网络技术的不断发展,企业纷纷建立自己的商务网站,开展电子商务活动,日积月累网站上生成了大量的与客户有关的记录信息,这些信息对企业来说应该是一笔非常宝贵的财富,如果能得到充分挖掘,发现背后蕴涵的有用知识,为企业业务决策和战略发展服务,企业将会在市场竞争中占据有利地位,应运而生的数据挖掘技术给出了有效的解决方法,它能够对大量的、不完全的、有噪声的、模糊的、随机的数据进行挖掘,提取隐含在其中的、事先不知道但又是潜在有用的信息和知识。而聚类分析是数据挖掘技术中重要的组成部分,从技术角度讲,它的主要目的是将数据空间中的数据点划分到若干个类中。其中,将距离相近的数据点划分到相同的类中,而将距离较远的数据点划分到不同的类中。
目前,已经提出了很多的聚类算法,它们基本上可以分为以下几种方法:划分方法、层次方法、基于密度、基于网格和混合方法等方法,这些方法各有优缺点。本文通过分析基于网格与基于密度的聚类算法特征,提出了一种基于网格和密度的混合聚类算法,通过分阶段聚类并选取代表单元中的种子对象来扩展类,从而减少区域查询次数,实现快速聚类。该算法保持了基于密度的聚类算法可以发现任意形状的聚类和对噪声数据不敏感的优点,同时保持了基于网格的聚类算法的高效性,适合对大规模数据的挖掘,并且实验数据分析验证了算法的有效性。
在聚类分析领域中另一个长期困扰研究者的典型问题就是聚类参数的设置问题。只有合理的设置聚类参数才能聚类出高质量的聚类结果。然而被聚类的数据集分布情况在聚类前往往是未知的,所以难以设置合理的聚类参数。而设置不合理的聚类参数又使得聚类结果质量变低。所以聚类参数设置问题应该首先被解决好。本文对网格聚类算法进行了深入地分析研究。在研究了传统网格聚类算法的基础上,针对网格聚类算法对参数敏感的问题,提出了一种基于网格的参数自动化聚类算法,该算法使用参数自动化技术解决了算法对参数敏感的问题。并在综合数据集和真实数据集上进行测试,最后给出实验结果,同时分析了该算法的时间复杂度和空间复杂度。