论文部分内容阅读
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类的应用是非常广泛的,无论是在商务领域,还是在生物学、Web 文档分类、图像处理等其它领域,都得到了有效的应用。目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法以及模糊聚类。微软Analysis Services 分析服务软件提供了一种基于密度算法的聚类分析实用数据挖掘工具。本文使用该工具,基于重庆两百公司商场的OLTP 数据,创建了该商场销售分析用数据仓库。在此基础上建立了顾客特征聚类数据挖掘模型,对商场的客户群特征进行了聚类分析;接着,又将客户特征与所购商品类别进行了联合聚类,分析了顾客特征与购买商品类别之间的联系。本文给出了从分析目标确定,数据仓库建模,数据迁移,挖掘模型确定,挖掘处理到挖掘结果分析的全过程。目前,许多商场都使用了顾客卡,可以获得一定的顾客特征信息,这为顾客分析奠定了基础,本文的应用实例为这类应用提供了有益的参考。K-means 算法是聚类算法中主要算法之一。它是一种基于划分的聚类算法。该算法随机选取K(K 为聚类数)个点作为初始聚类中心,通过一个迭代过程完成聚类。如果初始聚类中心选取不合理,就会误导聚类过程,得到一个不合理的聚类结果。层次凝聚算法是一种不需要确定初始聚类中心的算法,它采用自底向上的方法,通过逐层合并相近的类进行聚类。该算法的缺点是计算量很大。本文对K-means 算法中初值的选取方法进行了分析和研究,采用对数据集进行均匀采样,得到一个能在一定程度上代表原数据集特征的子集,在子集中采用层次凝聚算法得到k 个聚类中心,最后在原数据集上以离这k 个聚类中心最近的点作为初始聚类中心进行K-means 算法聚类。由于层次凝聚算法是在一个小数据集上运行的,计算量不会很大。在进行K-means 算法聚类时,由于初始聚类中心接近真实值,可以大大提高聚类效果。实例计算证实了该改进算法的有效性。