论文部分内容阅读
近年来,云计算和软件即服务(SaaS)的受关注度越来越高,云存储成为信息存储领域的一个研究热点。大多数现有的云存储系统是建立在分布式文件系统之上的,其中以HDFS分布式文件系统最被行业所接受,因为可以在其存储的海量数据上应用MapReduce编程模型进行数据挖掘,从而更好地发现数据中蕴含的潜在价值的信息。但是,目前HDFS分布式文件系统中存在着NameNode单点故障、备份节点数等问题,从而影响云存储系统的高可用性;并且关联规则挖掘算法中的并行化实现也有待进一步改进和优化。因此,针对以上问题,本文主要完成了以下工作:分析HDFS中NameNode相关的源码,并研究其工作流程和工作机制,提出基于Heartbeat+Avatar Node的HDFS高可用性方案,该方案具有热备和自动切换的特点。并分析AvatarNode的primary和standby角色相关源码,研究其工作流程和工作机制,提出SecondaryAvatarNode方案,从而增加一个轻量级备份节点,进一步提高云存储系统的高可用性。基于CLOSET+算法对PFP算法在挖掘闭频繁项集方面的不足之处进行优化,主要包括:对集群分组方法进行优化使得每个事务组分配得到的事务尽可能的平均,从而使每个并行的任务达到负载均衡;在挖掘的每一次递归过程中,针对稀疏、稠密数据集投影不同的FP-Tree结构,采用自底向上和由上向下相结合的方法,提高挖掘闭频繁项集的效率;通过使用超集检查的性质,提出基于滑动窗口的方式过滤局部的闭频繁项集,从而得到完备的闭频繁项集。通过搭建Hadoop集群实验平台,验证基于Heartbeat+AvatarNode的高可用性方案和SecondaryAvatarNode方案的有效性,同时分析基于CLOSET+算法对PFP算法在挖掘闭频繁项集方面进行改进和优化后的算法的效率,验证其基于Hadoop架构的挖掘闭频繁项集算法具有良好的扩展性。