论文部分内容阅读
Hadoop是当今应用最为广泛的开源云计算平台,主要由Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)和MapReduce框架组成。
当前Hadoop分布式文件系统采取的下载策略使客户端在从文件系统下载文件过程中下载效率低下而且不利于集群负载均衡,导致用户对Hadoop分布式文件系统的体验感受较差。
为了解决Hadoop分布式文件系统存在的上述问题,本文基于并行下载思想,分别设计出:(1)文件级并行下载策略,在下载文件过程中,并行下载文件每个数据块;(2)数据块级并行下载策略,在下载文件的某个数据块时,从多个节点并行下载数据块;(3)应用了一种速度自适应的动态并行下载机制的并行下载策略,在下载文件数据块的过程中,客户端同多个数据节点建立连接并行下载数据块,并根据各连接带宽比,动态分配下载任务。这三种下载策略在下载效率和集群负载均衡方面均优于Hadoop分布式文件系统的原始下载策略。策略(1)的下载效率和文件数据块在HDFS中的分布息息相关;策略(2)在文件数据块副本系数较大的情况下下载效率较高,且实现复杂度较低;策略(3)的综合下载性能最优,能够根据网络带宽的变化动态重分配下载任务。
本文实验中,用10台PC机搭建了一个小型Hadoop平台,在此平台上进行改进前和改进后的Hadoop分布式文件系统下载性能对比实验。实验主要从Hadoop分布式文件系统的原始策略和改进后的每种策略的下载时间和集群负载均衡两方面进行对比分析。实验证明,在相同条件下改进后的每种下载策略的下载时间大大减少,更有利于HDFS集群负载均衡。