基于Hadoop海量数据处理关键技术研究

来源 :电子科技大学 | 被引量 : 22次 | 上传用户:xiaohan191420
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网从诞生至今经历了接近半个世纪的时间,已深入到我们生活的方方面面。如今,在经历了WEB2.0时代之后,互联网正在向第三代——网络服务个性化。互联网的个性化演进过程中引发了数据的海量化,面对如此海量化的数据传统的单台超级服务器也逐渐显得力不从心,海量数据的处理逐渐成为一个棘手的难题。海量数据的产生与处理既是挑战也是机遇,海量数据为数据挖掘提供了丰富的数据源,从中挖掘出的信息更加具有商业价值。基于以上情况,今天,海量数据的处理已成为各大互联网公司投资研究的热门技术,中小企业也争相投入到这场数据盛宴中来。2006年Google所提出的云计算概念为海量数据处理的研究指明了方向,Apache基金会所研发的开源Hadoop云平台的开源特性更是为广大研究者带来了低成本海量数据处理的曙光。传统的数据处理方法与技术在单台服务器情况下表现优越,但面对云平台的分布式处理模式已不再适应。将传统的数据处理方法进行分布式计算模式改造,并在此基础上进行算法改进与性能的提升对于在海量数据处理的研究将有重大的意义。本文首先从云计算理论出发,介绍了云计算的发展历程与技术体系,并对现有多款云计算平台做了分析与对比。之后选定Hadoop开源云平台作为项目的基础研究平台,对其进行深入的分析与讨论。接下来对现有数据处理技术进行讨论。文章第三、四部分是项目研究的核心内容,其主要内容为:1)第三部分主要对海量web日志数据预处理模型进行研究。文章在总结传统经典预处理模型的基础上提出基于二次清洗模型与动态阈值算法的海量Web日志预处理模型,并对其做了详细描述。2)第四部分内容为基于并行关联规则算法的海量数据挖掘研究,主要以Apriori算法的并行算法为切入点,分析传统CD、DD算法的优势及不足之处,并提出改进方案,完成改进型Apriori数据挖掘算法的描述。在文章的第五部分对三、四部分所提出的改进及优化做仿真实验,并根据实验结果进行分析,最后得出实验结论。
其他文献
膨润土价格低廉,具有很大的比表面积、良好的吸附性能和阳离子交换能力,可用作废水处理的吸附剂和絮凝剂。本论文在论述了染料/印染废水的常见处理方法及膨润土在染料/印染废水
随着市场经济的不断发展,专业化分工的不断细化和深化,单个企业与外部相关企业之间的联系也更为密切和频繁,企业已经不能独善其身,供应链上任何一家企业的变动都会或多或少的
从西学东渐以来,中西方文化的比较这一重要课题就落在了华夏民族的肩上,不论前人做出怎样的研究和结论,这一课题都将是不会停止的历史课题,要真正理解中西方文化的差异我们就得追
我国经济正在迅猛发展,伴随的是日益增长的交通量需求,而我国正在服役使用的桥梁很大一部份是按照1970~1980年间实行的设计标准设计,这部分桥梁的承载力和通行能力已无法满足使
物联网是以互联网为基础,将用户端延伸到物体而进行通信的一种网络,它掀起了第三次世界信息产业浪潮。射频识别(Radio Frequency IDentification,RFID)技术是物联网的关键技术,它利
频谱是无线通信的基本资源。然而目前普遍采用的静态频谱分配策略严重导致频谱利用率低下,频谱资源受限成了制约新兴无线业务发展的瓶颈问题。认知无线网络(Cognitive Radio
汉武帝时期的内容一直是两汉研究的重点之一。汉武帝在位期间,对经济、政治、文化教育采取大一统的政策,亦同时着手于对宗教进行“统一”化的管理。此时期的儒生与儒学进入新
大学生创业在当今中国是一个新鲜、重大且复杂的课题,它关系到我国从工业经济社会向知识经济社会能否顺利转变,关系到我国社会主义现代化建设最终能否成功。大学生是享受国家财
以北京市昌平区为研究区,在RS、GIS技术支持下,以土壤学、土壤肥力学等知识为理论基础,对该区耕地进行分等研究,并将其结果应用于该区基本农田划分、高标准基本农田建设。以两个
20世纪初以来,随着周边地区农民大量移民进入蒙古族聚居区,蒙古族的生产生活方式逐渐发生变化,蒙古语言环境遭到严重破坏。现如今,内蒙古自治区蒙古族人口中有很大一部分不会