论文部分内容阅读
随着互联网经济的高速发展,带来了数据规模的不断增大,数据的多样性的增多,使得数据拥有了海量、异构、动态变化以及多样性的特征,给数据的挖掘工作带来了极大地困难。传统的数据挖掘方式已经不能适应现代化的需求,数据的高速发展并不是仅仅依靠硬件是升级能够解决的。近年来由Google公司率先提出的MapReduce计算框架,为海量数据处理的解决方案提供了一个新的思路,该框架已经成为国内外许多研究人员研究的热点。MapReduce框架已经广泛地运用在分布式数据处理架构设计中,该框架能够从现有的复杂数据中实现数据与底层细节的分离,实现对任务的调度、数据的切块划分、具有高度的数据容错性等等,可以极大地方便程序员的开发。聚类是数据挖掘技术研究的一个重要的内容,聚类分析已经广泛应用在工商业以及日常生活中的方方面面,目前许多优秀的聚类改进算法已经为我们的生活提供了巨大的便利。但是随着数据量的高速增长,传统的聚类算法已经不能适应于现代的需求,在海量数据集上进行的数据聚类分析,需要花费的时间已经远远超出了人们的承受范围。遗传算法以及K-means算法都是数据聚类中的一个分支,本文中以遗传算法和K-means算法作为研究重点,研究算法的并行化改进工作,并将改进后的算法在MapReduce并行化模型上实现。研究发现遗传算法在进行全局搜索的时候,收敛速度随着数据复杂度和数据量的增大而变慢。K-means在处理海量数据时,因初始聚类中心的选取不确定,从而导致收敛速度过慢。本文中针对这两个问题分别进行了研究与解决,提出了改进的遗传算法和改进的K-means算法,前者将有良好的快速搜索能力的粒子群算法引入到遗传算法的并行化实现中,后者针对K-means算法首先用模糊聚类的思想对数据集进行模糊分类,其次采用动态计算聚类中心的方式对数据集进行二次分类。最后将改进后的算法在MapReduce模型上进行了实现,通过最后的实验表明,改进后的算法不仅提高了加速比,而且算法的收敛速度更快。