论文部分内容阅读
随着信息化时代的发展,人们更多的依赖网络,导致互联网用户的激增,网络信息数据量呈爆炸式增长,这些数据中有百分之八十是文件图像音频等大文件,数据量甚至会达到PB级如此海量的数据存储成为当前研究的热点,也逐渐地成为制约企业长足发展的问题于是,构建高可用的存储网络成为当下的研究热门,分布式文件存储系统便应运而生HDFS运用于海量数据存储的场景,但是在架构上仍存在不足,因此,本文提出一种改进的方案并将优化后的HDFS应用到实际场景中所做的主要工作如下:首先,针对HDFS的单一namenode架构问题,提出搭建datanode集群的优化方案在该方案中搭建datanode集群,每个小集群中都有一个namenode管理集群中的各datanode,同时将namenode中文件元数据信息缓存到datanode集群中,这样就减少了客户端与namenode的交互所带来的namenode的内存压力优化后的HDFS中会包括多个namenode,其中某一个集群中的namenode失效也不会导致整个HDFS瘫痪此外,设计了索引服务,管理文件到namenode的映射,从而在架构上提升整体HDFS的性能其次,搭建优化后的HDFS集群并实际应用到基于云计算的高校综合信息管理平台,解决了平台上各应用的文件存储问题在优化后的HDFS集群上用java语言设计实现了供各应用存储的HDFS存储服务和RMI远程调用存储服务为了将平台上各应用上传的文件进行统一管理,使用ZK+Spring+Struts+Hibernate(ZSSH)框架java语言设计实现了平台文件管理存储系统最后,使用JMeter测试工具对优化前后HDFS集群进行测试通过在相同并发情况下成功上传文件的响应时间对比进行分析实验结果表明在大并发量的情况下上传文件,优化后的HDFS响应时间更短, HDFS的性能得到一定改善