论文部分内容阅读
随着CPU计算能力和计算机磁盘I/O速度的不断提高,企业分布式文件系统在传输海量数据时会遇到网络带宽的性能瓶颈问题。由于以太网传输能力相比于CPU处理能力和磁盘I/O能力差,所以网络带宽在很大程度上影响了分布式文件系统的传输性能。基于上述背景,本文设计实现了基于Infiniband网络的HDFS分布式文件系统。该分布式系统不仅可以大幅度提升网络传输能力,提高整个数据集群的运行效率,而且还针对磁盘有独立的管理模块,提升磁盘效率,并且这些性能上的优化对用户透明,使用方便。本文设计和实现的基于Infiniband的HDFS分布式文件系统是以开源的HDFS分布式文件系统为基础开发的。该系统最大的特点是在数据通信上采用了有别于以太网的网络通信技术-Infiniband。Infiniband是一种基于RDMA协议的网络通信技术,速度比当前的以太网速度快4倍以上。我们将在分布式文件系统HDFS上应用Infiniband,并且修改分布式文件系统的传输机制,摒弃原有的Socket网络传输方法,采用Infiniband以RDMA内存拷贝方式传输的方法,使分布式文件系统在Infiniband上突破网络带宽的瓶颈,提高性能。整个应用包括JNI调用模块、HDFS源代码插件模块、Infiniband网络通信模块,Block控制管理模块以及磁盘存储管理模块。目前整个系统还处于性能测试阶段,本人在项目中的主要工作是完成项目的原型开发并测试其性能提升情况,以验证项目可行性。本文首先阐述了论文的研究背景,分析了国内外对HDFS分布式文件系统的研究现状,并阐述了本文的主要工作,然后介绍了项目所用的相关技术。在了解使用的技术的基础上,本文对该系统进行了需求分析、软件设计以及详细设计和系统实现。我们最终将通过实验对比使用Infiniband的且修改后的分布式文件系统、只使用Infiniband的IPOIB模式的HDFS分布式文件系统和使用以太网的HDFS分布式文件系统以验证修改后的HDFS分布式文件系统在Infiniband上的性能大大提高。如果能够得到商业应用,将拓宽HDFS在很多领域的应用,尤其在高强度网络需求的应用上的使用。最后本文对现阶段的工作进行了总结和展望。