论文部分内容阅读
聚类之于数据挖掘就是对数据集中的数据应用某种方法进行分组,把具有相似性质的事情区分加以分类。聚类算法在数据挖掘算法中占有重要的一席之地,它被广泛的应用于各个领域,例如模式识别,模糊控制等等,因此越来越多的聚类方式被提出和深入研究。聚类算法通常被分为5类,有基于层次的聚类,基于划分的聚类,基于密度的聚类,基于模糊的聚类。模糊K-Means聚类算法于1981年由Beadek提出,它是一个基于划分的聚类算法,因为其效率高,可扩展性强,收敛速度快,被广泛的应用在数据挖掘中。但是算法中也存在一些问题:聚类中心的选择,和假定各维特征权值相同。在本文中,提出了一种改进的模糊K-Means算法。初始聚类中心的选择基于平均距离,算法主体加入了权重的思想,权重代表不同维度对划分的贡献不同,它考虑到整个数据集,数据的一个维度(属性值)的权值可以被当做对分类的贡献大小,贡献大的属性权值较大,反之较小。权重可以加快聚类过程,并得到更好的聚类结果。BIRCH算法是一种基于层次的聚类算法。它利用聚类特征(Clustering Feature,CF),和聚类特征树(CF Tree)两个概念来描述算法过程。文章里分析了BIRCH算法的存在的一些问题,提出了基于密度和动态阈值的任意形状的聚类算法。算法将密度和阈值综合考虑,并在过程中动态改变阈值T以适应数据集特征的改变。算法的复杂度基本和BIRCH算法持平,但是在内存控制上由于动态控制了CF树,减少了消耗,任意形状的数据集也能接近DBSCAN的聚类结果。在软件和信息技术服务行业规模逐年扩大的今天,业内竞争十分激烈,每家公司的成本,营业额,利润等都在不断变化,由此给政府部分带来很多不便。为了方便管理部门掌握实时数据,并从大量数据中挖掘出潜在价值和有意义的发展趋势,为领导决策提供参考,指导产业健康、快速、有序发展,由部软件服务业司牵头,设计了利用改进的聚类算法,具备高效、交互的挖掘特点,同时与数据仓库紧密结合,切实满足用户实际应用需求,专门针对软件和信息服务业的数据挖掘系统。