pNFS支持Hadoop框架的研究与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:MENTAL2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据呈现爆炸式增长,我们已全面进入大数据时代。大数据技术也应运而生,其中的典型代表为Apache的Hadoop开源项目,这对传统文件系统带来了一定的挑战,包括BWFS、GPFS等。当前各主流文件系统如Lustre、PVFS、Ceph、GPFS等都已经实现了对Hadoop的原生支持,这样既可满足传统应用的存储需求也可满足对大数据并行处理应用的新需求。但是,由于Hadoop默认存储系统HDFS与BWFS数据不兼容,若执行大数据并行处理应用,BWFS上的数据需先拷贝至HDFS,此时将产生拷贝时间开销。针对该问题,本文以pNFS具有与BWFS相同的结构,且pNFS的搭建环境更易于满足以及pNFS是下一代标准网络文件系统作为契机,在pNFS上实现了对Hadoop框架的支持。本文取得的主要成果如下:  pNFS支持Hadoop框架的设计与实现:在Hadoop的HDFS API及pNFS client之间添加一层“pNFS shim layer”。实现了Hadoop提供的22个HDFS API,并将请求转发给pNFS client。这使得pNFS既支持传统应用,又能支持大数据并行处理新应用。测试结果表明,pNFS支持Hadoop取得了与HDFS相当的性能。  针对写密集型应用,在“pNFS shim layer”中添加写缓存模块:提升了整体系统写性能。测试结果表明:支持Hadoop执行写密集型的测试用例时,添加了写缓存模块的pNFS比未添加写缓存的pNFS性能提升了3至6倍,并且相较HDFS的性能提升了45%~54%,达到了预期效果。  针对读密集型应用,在“pNFS shim layer”中设计并实现了节点级数据布局感知机制:依据Hadoop的计算与存储较近的原则,实现了HDFS API中的getFileBlockLocations接口。通过在pNFS内核模块中添加新的功能获得数据在设备级的布局信息,再通过iSCSI服务获得设备与节点的对应关系,从而建立映射得到文件数据在节点级的布局信息。最终使得Hadoop的计算任务尽可能部署到离处理数据较近的节点,使得数据本地化。测试结果表明该机制将map task的数据读取本地率从20%~33%提升至97%以上,此时的Hadoop性能相较于HDFS支持的Hadoop提升了60%~68%,比未实现数据布局感知机制的pNFS支持的Hadoop提升了28%以上,达到了预期效果。
其他文献
数据挖掘,也可以称为数据库中的知识发现(KDD),是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和
数据挖掘是数据库技术发展,目前己经成功地应用于各个领域,但大部分集中在银行、金融、大型商业数据库等赢利性领域中,在高校、政府等一些非赢利性机构中应用很少。智能自测试系
应用程序中变量和数据源之间的结合方式、对应关系以及变量取值和数据项之间的相互转换过程是持久化过程需要考虑的重要问题,它直接体现了数据在应用特定的语境中的语义,即所谓
近年来,在高性能计算(HPC)领域,气象预测、地震监测、基因数据处理等并行应用对计算能力的需求越来越高。如何对HPC并行应用进行快速部署和便捷性维护成为一个急需解决的问题。
随着互联网应用和计算模式的日益丰富以及社会对互联网依赖程度的增强,互联网接入方式和网络功能定位都发生了巨大的改变,现行TCP/IP体系结构已经无法满足互联网持续发展的需求
Java应用具有良好的跨平台特性,广泛应用于服务器领域。Java虚拟机作为Java程序赖以运行的基础平台,对Java应用执行效率的影响至关重要。随着虚拟机由32位向64位过渡,服务器软件
排队是人类生活中十分常见的现象,当公共服务不能同时满足多个人的需求时,人们就要进行排队等待。人数估计作为排队现象中最基本、最关键的问题,具有重要的实际应用价值。例如,根
21世纪是信息技术的时代,也是互联网的时代。随着计算机技术、网络通信技术、地球空间技术的发展,尤其是Internet及Web作为未来计算机技术的一个重要发展方向,传统的GIS正向着信
事件流分析处理系统是数据流管理系统后端的历史数据存储分析系统,被广泛地应用在以网络监控、金融分析、传感器网络等监控应用为代表的大规模数据密集型环境中.它需要同时满
学位