基于Hadoop的云存储系统的研究与应用

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:maly_soly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,云计算和软件即服务(SaaS)的受关注度越来越高,云存储成为信息存储领域的一个研究热点。大多数现有的云存储系统是建立在分布式文件系统之上的,其中以HDFS分布式文件系统最被行业所接受,因为可以在其存储的海量数据上应用MapReduce编程模型进行数据挖掘,从而更好地发现数据中蕴含的潜在价值的信息。但是,目前HDFS分布式文件系统中存在着NameNode单点故障、备份节点数等问题,从而影响云存储系统的高可用性;并且关联规则挖掘算法中的并行化实现也有待进一步改进和优化。因此,针对以上问题,本文主要完成了以下工作:分析HDFS中NameNode相关的源码,并研究其工作流程和工作机制,提出基于Heartbeat+Avatar Node的HDFS高可用性方案,该方案具有热备和自动切换的特点。并分析AvatarNode的primary和standby角色相关源码,研究其工作流程和工作机制,提出SecondaryAvatarNode方案,从而增加一个轻量级备份节点,进一步提高云存储系统的高可用性。基于CLOSET+算法对PFP算法在挖掘闭频繁项集方面的不足之处进行优化,主要包括:对集群分组方法进行优化使得每个事务组分配得到的事务尽可能的平均,从而使每个并行的任务达到负载均衡;在挖掘的每一次递归过程中,针对稀疏、稠密数据集投影不同的FP-Tree结构,采用自底向上和由上向下相结合的方法,提高挖掘闭频繁项集的效率;通过使用超集检查的性质,提出基于滑动窗口的方式过滤局部的闭频繁项集,从而得到完备的闭频繁项集。通过搭建Hadoop集群实验平台,验证基于Heartbeat+AvatarNode的高可用性方案和SecondaryAvatarNode方案的有效性,同时分析基于CLOSET+算法对PFP算法在挖掘闭频繁项集方面进行改进和优化后的算法的效率,验证其基于Hadoop架构的挖掘闭频繁项集算法具有良好的扩展性。
其他文献
随着大数据时代的到来,爆炸式增长的海量数据迫切需要有效的存储和管理。大规模分布式存储技术的飞跃式发展势不可挡。人们对存储系统的要求也更为广泛,譬如存储容量、I/O性能
随着大数据技术在业界和学术界的发展,大量的分布式计算平台投入运行,其中以Apache Hadoop平台应用最为广泛。Hadoop屏蔽了分布式系统的底层实现细节,使得应用程序开发人员可
随着网络和信息技术的发展,不同组织域之间的信息共享和分布式协作变得日益广泛。一方面为现代社会生产和生活提供了很大便利,而另一方面,又会带来各种信息安全问题。各个组织域
随着以微博为代表的社交网络的兴起,在带给人们前所未有的资讯体验的同时,社交网络中层出不穷、愈演愈烈的谣言信息也成为日益突出的问题。谣言的自动检测研究作为社交网络谣言
近年来,世界经济发展迅速,但是很多国家的交通设施的建设速度都不及机动车增长速度,导致交通拥堵问题愈演愈烈。交通拥堵会造成极大的时间浪费和经济浪费,也会造成空气污染、噪音
Web服务作为一种新型的Web应用模式,近年来得到了迅速的发展。如何把现存的各种Web服务整合起来形成新的、增值的服务并满足用户对服务质量的要求成为服务组合领域的应用需求
近年来云计算技术发展迅猛,作为云计算技术主要应用形式之一的VDI[1](Virtual Desktop Infrastructure)也在随着企业用户和普通用户实际应用需求的变化而不断改进与完善。VDI
硬件的普及推进了软件的发展。随着高精度数码相机的普及,一些原本得不到推广的技术变得当普遍。车牌识别就是其中之一。这项技术主要用于高速公路违章记录,停车场收费管理系统
在数字图像处理领域中,图像的分辨率可以反映图像的清晰程度,是评价图像质量的关键指标。由于人脸图像在计算机视觉,模式识别等领域中起着至关重要的作用,所以关于人脸图像超分辨
伴随着流媒体的广泛应用和人们对高服务质量的追求,流媒体传输技术成为网络应用的一大热点。流媒体集音频视频及图文于一体,具有数据量大、低时延、低抖动等特性。流媒体数据在