论文部分内容阅读
云计算是信息技术发展到一定阶段的产物,是一种创新的IT基础架构及管理方法,更是一种创新的商业模式。Hadoop则是一种开源的云计算实现平台,可用来构建一个具有高可靠性和高扩展性的云计算服务环境,并能显著降低运营成本及提高运营效率,因此而受到工业界及学术界的广泛关注。尽管Hadoop具有上述诸多优点,但目前Hadoop在小文件处理、负载均衡策略、资源存储及服务计量计费等方面还有待提高和完善。为此,本文针对Hadoop在以上方面存在的不足,分别开展了对应关键技术的分析和研究,主要成果如下:1) Hadoop小文件处理:针对Hadoop在处理大量小文件时存在文件读取及检索效率低下的问题,本文结合数据预取技术,提出了一种基于数据预取的Hadoop小文件解决方案,该方案对Hadoop主节点索引文件及数据节点的数据块文件分别进行预取处理,能够有效提高Hadoop中小文件读取速度及检索效率。通过实验及分析,相比于现有的 Hadoop Archive、Sequence File 及 CombineFileInputFormat 的小文件处理方案,该方案的平均读取速度分别提高了 42.7%、20.1%和10.6%,平均检索时间分别降低了 37.8%、40.2%和28.6%。2) Hadoop负载均衡:通过分析Hadoop平台现有负载均衡方案,发现其在负载均衡时都仅考虑了各服务节点的存储空间利用率等因素,并没有考虑各服务节点之间的相对负载,但在Hadoop实际运行过程中文件并发访问、网络带宽、CPU能力及内存利用率等动态因素对节点负载都有直接或间接影响。为弥补这一不足,本文提出了一种基于层次分析法的Hadoop负载均衡方案,该方案综合考虑了文件并发访问、网络带宽、CPU能力及内存利用率等动态因素,计算了服务节点的总负载及服务节点之间的相对负载。通过实验及分析,该方案与现有负载均衡方案 FIFO、Fair Scheduler、Capacity Scheduler、Balancer 的负载波动值分别为 0.00007、0.00049、0.00037、0.00031、0.00029,该方案的负载波动最小,其文件读取速度较之后者也分别提高了 17.11%、15.53%、9.26%和 7.70%。3) Hadoop资源存储:Hadoop在存储资源时采用完全依赖云端的运行管理模式,容易造成数据被外部攻击等安全性问题,且资源的存储及检索效率也比较低。针对这一缺陷,本文结合P2P技术,提出了一种基于P2P的Hadoop混合云存储模型(简称PCS模型)。在PCS模型中,我们把非重要数据存储到云端,而把重要数据存储到PCS内部P2P网络中,使得重要数据能够有效与外界隔离,同时提高了存储资源的传输速度及检索效率。通过实验及分析,本文PCS模型相比于普通云存储的文件平均传输速度提高了 9.35%,平均检索时间降低了 6.77%。4) Hadoop服务计量计费:通过分析发现,传统的扁平计费模式及当前主流基于用量的分布式计费模式还存在计量因子单一、容易导致对无效服务进行计费等问题。本文结合Hadoop平台的服务多样性、成本低等特点,提出了一种基于业务逻辑类的Hadoop服务计量计费方案,该方案设计了基于业务逻辑类的计量计费方法,能够对现有Hadoop服务资源进行更细粒度的计量和计费。通过示例验证及分析,本文方案相比于基于用量计费模式的用户使用资源总费用及产生的流量分别降低了 7.5%和8.0%。