基于Hadoop平台的数据挖掘算法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:fhzh508508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是针对大量的数据进行分析,以得出有价值信息的过程。随着社会信息化程度越来越高,移动网络设备骤增,产生了大量的数据信息,如何从海量的数据中挖掘出有价值的知识,是数据挖掘技术所面临的主要问题之一。传统的数据挖掘很难满足现阶段大数据处理效率的要求,以Hadoop平台为代表的云计算技术应用解决了大数据挖掘的瓶颈。但是基于Hadoop平台的数据挖掘算法并行化研究仍然存在一些亟待解决的问题,例如,如何减少I/O损耗、如何设计更优的MapReduce任务、如何降低任务同步和通信的代价等等。  为了解决这些问题,本文主要进行了以下研究工作:  (1)本文分析了传统的KNN算法的执行流程,将其传统流程中的向量映射、计算距离、寻找K个相邻向量、确定类别的四个步骤,分别进行了MapReduce改造。在此基础之上,提出了KNN算法基于Hadoop平台的并行化移植方案。而后对于方案中Job任务数过多,以及运算伪同步的缺陷进行了改进,最终提出了改进的并行化方案。改进的KNN算法并行化方案将MapReduce任务的个数由基本移植方案中的4次降低为2次,并利用了MapReduce自动排序的特性,提高了算法的执行效率;  (2)本文分析了传统Apriori算法的执行流程,将其传统流程中的剪枝步、连接步、求取强关联规则以及相关程序控制等步骤,分别改造成合理的MapReduce模式,在此基础之上。提出了Apriori算法基于Hadoop平台的并行化移植方案。而后对于方案中的Job任务数过多,迭代流程复杂等缺陷进行了改进,最终提出了改进的并行化方案。改进的Apriori算法并行化方案摈弃了剪枝优化迭代遍历的传统工作模式,并使得事务数据库的扫描次数由传统的不确定k(k>1)次减少至固定的2次;  (3)为验证本文提出方案的合理性和正确性,本文搭建了Hadoop云平台,并在此环境中实现了KNN、Apriori算法的改进方案。  对于改进的KNN算法并行化方案,实验观察了在不同计算节点数的情况下该算法的性能表现,最终证明了并行化改进后的KNN算法具有良好的扩展性;对于改进的Apriori算法并行化方案,实验处理了多个数据集,从最小支持度、项集阶数、数据量三个方面进行分析,确定了并行化改进后的Apriori算法具有良好的执行效率。
其他文献
路由技术是无线AdHoc的一个重要研究领域。在人们为不同目的而设计的诸多路由协议中,AODV(AdHocOndemandDistanceVector)路由协议是IETF(InternetEngineeringTaskForce)的MANE
延迟容忍网络(Delay Tolerant Networks,DTN)是一种不同于传统TCP/IP类型网络的新型资源限制型特种网络。该类型网络与传统MANET网络不同:网络中的移动节点之间不存在稳定的
协同电子商务是企业在网络经济下发展的新方向。它是电子商务发展的高级阶段。其内部和外部复杂的交互和协作要求有一个强大的网络平台作为支撑。 P2P网络是一个拥有强大
多级互连网络是现代并行计算和交换系统的核心,如何构造具有良好通信能力、最优硬件代价和路由时间复杂度并可以无阻塞传输多播信号的多级互连网络是一个非常重要的研究课题。
随着分布式系统和网络技术的飞速发展,特别是上世纪90年代中期以来,数据源的数量不断增多,数据信息总量也以惊人的速率增长。然而,这些数据源分布在各种网络当中,存储在数据源中的
随着高性能计算机的普及,利用计算机协助人工来处理日常的信息已经成为当前计算机科学发展的重要方向。模式识别作为主要的智能信息处理技术已经越来越广泛地被应用到日常生活
当今嵌入式微处理器和DSP的设计中,功耗已经成为至关重要的设计因素,其中片上Cache访问是嵌入式芯片功耗的一个主要来源。基于这一点,本课题希望建立一种可重构Cache的结构,能够
指纹识别是指通过计算机,利用人体固有的指纹生理特征来进行个人身份鉴别的技术。由于人体指纹具有唯一性和不变性,使得指纹识别与传统的认证方法相比,具有更高的安全性和易用性
手写字符识别是模式识别理论的一个重要应用领域,也是实现在各种背景下字符录入自动化的重要手段.特征提取和分类器设计是手写字符识别中的两个关键技术.虽然手写字符识别研
本文基于再生核理论对双臂自由飞行空间机器人(Dual-Arm Free-Flying Space Robot,简称DFFSR)运动控制的数值方法进行了研究。自由飞行空间机器人是当今空间机器人研究领域中的