论文部分内容阅读
数据挖掘技术领域中一项重要的数据分析技术——聚类分析技术在许多重要方面都得到了广泛的应用,近年来得到了广泛的研究,并取得了较快的发展。其实,聚类问题实质上是把待处理的原始样本数据对象通过某种相似性准则函数被分为若干类,想要达到的结果就是同一组相似性尽可能高,不同组之间差异性尽可能大,然后在这些不同组之间寻找联系,进行进一步的操作。目前研究的聚类分析大致可以分为:划分聚类(Partitioning clustering)、层次聚类(Hierarchical clustering)、网格聚类(Grid-based clustering)、密度聚类(Density clustering)、模糊聚类(Fuzzy Clustering Algorithm)、模型聚类(Model clustering)等。聚类K-means方法是一种基于分割的聚类算法,由于其易于实现,易于操作,简单高效,被广大研究学者广泛用于研究。但也有一些缺陷,K-means方法在选取初始中心进行聚类时采取的是随机选取的形式,这就使得聚类结果将遵循初始中心选择变化,因此,本文在K-means方法的基础之上,针对K-means方法存在的不足之处进行了钻研与应用,主要的钻研有以下几个方面:1.对于传统的K-means方法进行了探讨,针对传统K-means聚类算法初始聚类中心随机选取的缺陷进行改进,本文根据KD-树这种高效的数据结构对K-means方法进行改进提出了优化中心选取的新方法。该方法引入KD-树这种数据结构,将数据集建立KD-树,通过对KD-树中矩形单元的分割、计算、排序等操作,选取出能够表示样本数据分布形态的k个非噪声点的初始聚类中心;根据上述提出的算法,结合优化选取的k个代表样本数据空间分布形态的初始聚类中心和增量数据建立新的KD-树,通过近邻搜索将增量数据划分到对应的类中,完成增量数据的动态聚类过程。2.传统协同过滤算法应用的样本数据空间都会转化为用户-项目评分矩阵,但是矩阵中会出现“0”值或是空值,使得转化后的评分矩阵数据稀疏,本文中提出的算法机制是结合了聚类分析的技术和协同过滤的技术同时产生商品推荐。其中主要是在聚类分析算法中选择了K-means方法进行了研究与使用,K-means方法存在一个最典型的缺陷就是聚类初始阶段随机选取中心点,本文的新方法先是利用Kruskal最小生成树算法改进K-means的不足,提出了一种Kruskal改进的K-means聚类方法—KrusK-means算法。接下来在协同过滤推荐机制中同时利用KrusK-means算法对项目数据矩阵和用户数据矩阵进行聚类;最后,在推荐机制中采用两次预测产生推荐,初始预测时是基于项目的聚类结果,最终预测时是基于用户的聚类结果,将这两个预测结果结合起来产生推荐集推荐给用户,完成推荐过程。