基于Hadoop的并行挖掘算法的研究

被引量 : 19次 | 上传用户:zhangzhennan6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,随着网络技术、移动互联网技术、社交网络、传感器技术的快速发展,产生了许多能够快速生成、传播数据的智能终端。这些终端正在以惊人的速度产生大量的数据,这其中有超过80%的数据是非结构化数据,且在不断地增加,并且需要长时间存储,而且非热点数据也可能会被访问。这种情况与传统的、基于关系型数据库的核心数据存储方式有显著的差异。这种差异使得传统的数据存储和管理解决方案无法胜任“大数据”时代的分析、管理和挖掘的任务。另外,大数据时代的数据每时每刻都在快速增长,传统的数据挖掘解决方案已经无法适应这种近乎无限扩张数据集的分析任务。大数据时代的核心问题就是通过数据挖掘技术筛选冶炼大数据矿山中的贵金属。借助云计算的形式对这些数据进行筛选处理分析及提取有用的信息,已经成为数据挖掘领域重要的研究方向。Hadoop是Apache的一款开源软件,它提供了包括分布式文件系统和MapReduce计算框架在内的云计算软件平台的基础架构,并且在其上整合了包括数据库、数据仓库等一系列组件,其已成为学术界和工业界进行云计算研究和应用的标准平台。本文重点研究了Hadoop软件框架中的HDFS、MapReduce、HBase等组件的核心架构及其运行机制,并分析了框架的不足,如HDFS、MapReduce的单点故障及安全性等问题,提出了相应的解决方案,并基于此搭建了高可靠安全的Hadoop环境。在高可靠安全的Hadoop平台上,结合传统分类聚类算法的特点给出了一种基于云计算的数据挖掘系统的设计方案,并对该系统的各层次的功能及该系统中的分类聚类模块进行了详细的阐述。本文的具体内容包括:1.针对HDFS NameNode、MapReduce JobTracker单节点故障以及HDFS文件访问的安全等缺陷,深入研究Hadoop生态系统中的主要组件,提出了合适的解决方案。并基于此搭建了高可靠安全的Hadoop集群。2.针对大数据分析技术的特点,研究了传统数据挖掘系统的特性,提出了基于Hadoop数据挖掘平台的技术架构。3.设计并实现了基于Hadoop勺分类算法,主要包括Naive Bayes、SVM,并且进行了相关实验;主要从算法的效率及扩展性方面进行了对比分析4.设计并实现了基于Hadoop的聚类算法,主要包括K-Meas、Canopy,并行进行了相关的实现;主要从算法的效率及扩展性方面进行了对比分析。
其他文献
以东亚—澳大利西亚候鸟迁徙路线上重要的驿站——闽江河口湿地为例,运用支付卡式条件价值评估法(CVM),对该湿地生态系统的支付意愿进行面对面的问卷调查。共发放支付卡式CVM问
本文是一篇翻译报告,翻译文本节选自约翰·.斯切尔汉斯和马克思·杰·普费夫合作完成的名为《当全球性环境保护区的建立与当地人们的生存相遇:南美洲的居民和公园》学术调查研
探索组织器官移植后的排斥反应,提高移植物的存活率是移植免疫研究者致力攻克的堡垒。20世纪90年代以来,随着器官移植术的广泛开展,人们对移植排斥反应的认识不断加深,对移植
鄂尔多斯人杰地灵、水草肥美,素以“歌海”、“舞乡”著称。纯朴的鄂尔多斯人用劳动和智慧创造了绚丽多彩的鄂尔多斯文化艺术。尤其是短调民歌与歌舞艺术,是鄂尔多斯人文化生
目的1. Klotho在肝癌与癌旁组织中的表达差异,Klotho的表达与肝癌病人临床病理资料的关系。2. Klohtho的高或低表达对肝癌细胞生长的影响,及klotho基因通过Wnt1/β-catenin信
分析了粉末烧结铝镍钴(AlNiCo)永磁合金的主要缺陷及对产品质量的影响;根据多年的生产经验,针对具体缺陷提出了改善方案。粉末烧结AlNiCo永磁合金中主要缺陷包括气孔、变形、夹杂
本文论述了在空间飞行器复杂的力学环境中,如何保证捷联惯性测量组合的精度和长寿命工作,进而提出适当调整角运动敏感元件的带宽,配以隔振装置并选择最佳共振频率等方法,以满
长达二千多年的历史中,京杭大运河都是沟通中国南北政治、军事、经济、文化的桥梁和纽带,彰显了中国古代领先于世界卓越的水利工程技术,留下了无数重要的历史文化遗迹,沉淀了
随着我国人口老龄化的来临,老年人的人口基数正在逐年增大,如何改变老年人的生活质量,如何让老年人有个愉快的晚年生活成为目前我国政府必须面对的社会问题,在这种情况下,研究老年
2000和2015年在湘西烟区采集土壤样品,测定土壤有效锌含量,利用经典统计学、地统计学等方法,对区域土壤有效锌时空变异及其影响因素进行研究。结果表明:就基本统计特征而言,