改进聚类算法的MapReduce并行化研究

被引量 : 0次 | 上传用户:sz_davild
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网经济的高速发展,带来了数据规模的不断增大,数据的多样性的增多,使得数据拥有了海量、异构、动态变化以及多样性的特征,给数据的挖掘工作带来了极大地困难。传统的数据挖掘方式已经不能适应现代化的需求,数据的高速发展并不是仅仅依靠硬件是升级能够解决的。近年来由Google公司率先提出的MapReduce计算框架,为海量数据处理的解决方案提供了一个新的思路,该框架已经成为国内外许多研究人员研究的热点。MapReduce框架已经广泛地运用在分布式数据处理架构设计中,该框架能够从现有的复杂数据中实现数据与底层细节的分离,实现对任务的调度、数据的切块划分、具有高度的数据容错性等等,可以极大地方便程序员的开发。聚类是数据挖掘技术研究的一个重要的内容,聚类分析已经广泛应用在工商业以及日常生活中的方方面面,目前许多优秀的聚类改进算法已经为我们的生活提供了巨大的便利。但是随着数据量的高速增长,传统的聚类算法已经不能适应于现代的需求,在海量数据集上进行的数据聚类分析,需要花费的时间已经远远超出了人们的承受范围。遗传算法以及K-means算法都是数据聚类中的一个分支,本文中以遗传算法和K-means算法作为研究重点,研究算法的并行化改进工作,并将改进后的算法在MapReduce并行化模型上实现。研究发现遗传算法在进行全局搜索的时候,收敛速度随着数据复杂度和数据量的增大而变慢。K-means在处理海量数据时,因初始聚类中心的选取不确定,从而导致收敛速度过慢。本文中针对这两个问题分别进行了研究与解决,提出了改进的遗传算法和改进的K-means算法,前者将有良好的快速搜索能力的粒子群算法引入到遗传算法的并行化实现中,后者针对K-means算法首先用模糊聚类的思想对数据集进行模糊分类,其次采用动态计算聚类中心的方式对数据集进行二次分类。最后将改进后的算法在MapReduce模型上进行了实现,通过最后的实验表明,改进后的算法不仅提高了加速比,而且算法的收敛速度更快。
其他文献
近两年中小型外商投资企业、进出口贸易企业呈现较快发展态势,但因其经营管理及外部环境等因素影响,中小出口企业发展还受诸多因素制约,山东省蒙阴县的调研报告就具有一定的
<正>随着中国的奶业从散养粗放型经营管理的传统模式向规模化、标准化管理的现代模式转变,对依靠现代畜牧机械、计算机信息技术改造传统奶牛业的要求愈加得到重视。基于上海
<正>从世界五个大党(苏联共产党、印度国大党、日本自民党、墨西哥革命制度党、中国国民党)的兴衰历史可以看出,改进执政方式、实现从传统政党向现代政党的转型是大党保持执
<正>中国经济必须适应新情况、新变化,在新的环境中、新的平台上实现新的平衡,以适宜的速度、适当的方式、更高的效率、更好的质量,继续保持健康、平稳的发展状态,是谓"新常
目的:建立生脉注射液的HPLC指纹图谱。方法:采用Waters Symmetry ShieldTMRP18(4.6 mm×250 mm,5μm)色谱柱,以乙腈-水为流动相,梯度洗脱,流速为1 mL.min-1,检测波长203 nm,
目的:研究建立鹿角胶中L-羟脯氨酸、甘氨酸、丙氨酸、L-脯氨酸4个氨基酸的分析和测定方法。方法:样品以6 mol·L-1盐酸于沸水浴水解1 h,蒸干,甲醇溶解,以苯酚-0.5%硼砂溶液(4
研究目的通过临床回顾性研究,探讨多原发恶性肿瘤(multiple primary malignant neoplasms, MPMNs)的流行病学特点、病因、诊断、鉴别诊断、治疗及预后等方面,分析患者性别、
由于现代多媒体技术的产生和发展,尤其在教学上的广泛使用,对于突破教学难点和提高教学质量,都具有非常重要的意义。因此本文首先阐述了多媒体技术在突破小学数学教学难点的
金融市场结构对小微企业融资具有重要的影响,不完全信息确实造成小微企业融资约束,但认为小微企业先天融资缺陷存在谬误。本文建议降低金融市场准入门槛,加大监管,鼓励民营资
本文阐述了混凝土超声波无损检测技术的原理,介绍该方法检测过程中的主要影响因素,并对超声波检测技术的发展提出了展望。