基于HDFS的云存储系统研究

被引量 : 0次 | 上传用户:mkl119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算基于网络,是网格计算、并行计算和分布式计算的进一步发展。它采用了网络存储、虚拟化和负载均衡等技术,将用户任务合理转移到位于网络的大型计算中心来完成,实现了计算机软硬件资源的充分整合和共享。云存储是在云计算的概念上延伸和发展出来的。它通过将网络中各种不同类型的存储设备集合起来协同工作,对外提供数据存储和访问服务。在众多的开源云计算平台中,由自由软件基金会Apache基于Google云计算的设计理念实现的Hadoop Project引起了广泛关注。其中的Hadoop分布式文件系统(HDFS,Hadoop Distributed File System)研究云存储相关技术,实现了海量数据的存储管理。HDFS具有扩展性强、可靠性高、成本低等优势,有利于大型和小型的学术团体进行实验环境的搭建。完善的文件管理方法和类似于流式的数据读取机制,使HDFS成为云存储研究的热点之一。云存储必须关注的是如何高效地保证存储数据的有效性、完整性、可用性以及存储的持久性。目前,文件存储所采用的技术主要有两种:数据的完全备份和纠删码方法,这两种方法各有优劣。数据的完全备份可以降低用户的访问延迟,但却需要构建地理位置不同的数据中心,同时消耗更多的存储空间和传输带宽;纠删码方法可以增强数据的持久化存储能力,占用空间相对较少,但会因解码操作消耗更多的系统资源,延长用户的访问延迟。如何集二者之长优势互补?在占用存储空间较少的同时不增加用户的访问延迟,并能保证数据的有效性、完整性和可用性,增强数据的持久化存储能力,就成为本文的研究课题。本文采用了数据的完全备份和纠删码相结合的方法,基于HDFS设计并实现了分布式架构REPERA。作为云存储架构的一种形式,REPERA除了具有HDFS的扩展性高、可靠性强、支持大规模数据集管理和类似于流式的快速数据存取特点外,还具有两种数据存储方法的优点,平衡了数据的访问延迟和持久化存储之间的矛盾,,节省了较多的存储空间。此外,REPERA系统的实现给用户预留了配置参数,用户可以根据自身需要对存储策略进行配置,在不同的应用场景下分别选择更偏向于完全备份还是纠删码,达到最优化。本文将在详细分析HDFS内部机制的基础上提出REPERA架构的设计理念,然后设计并实现该架构,并通过具体实验测试验证REPERA架构的可行性。
其他文献
本文基于系统科学理论,综合运用区域经济学、产业经济学、计量经济学等理论与方法,对高技术产业与区域经济协调发展问题进行了全面系统地研究,主要内容包括:运用区域经济学、产业
当前的数据密集型计算需要处理PB级数据集和GB级数据流,面临着大规模数据管理、复杂计算环境管理、可扩展计算平台等方面的难题。Hadoop是一种易扩展的分布式计算架构,能将廉
我国电网正处于高速发展阶段,随着智能电网战略的进一步实施,不远的将来将形成自动化程度更高的配电系统。电力系统规模的不断扩大化与复杂化,给系统的安全可靠运行带来了较
内燃机燃料燃烧所放出的能量仅有三分之一左右被有效利用,其它能量通过废气、冷却水等散发掉。采用朗肯循环回收内燃机废气热量,能提高发动机的有效输出功率,同时降低燃料消
中国从20世纪90年代中后期开始在不同城市开展“全国社区建设实验区”,探索中国城市社区服务体系。十多年的实践证明,社区服务从舶来到本土化确实取得了一定的发展,但长远发
安定性是对结构在复杂加载条件下塑性行为的研究,为预测复杂加载尤其是循环或变化重复荷载作用下结构的响应提供了强有力的分析工具。现有的安定数值分析方法主要是以数学规
目前我国企业法人吊销营业执照后诉讼主体资格的确定缺乏清晰、统一的法律依据,《民法》与《民事诉讼法》、《公司法》、《公司登记管理条例》等法律间矛盾突出,企业吊销营业
随着国民经济的发展,我国能源的需求量越来越大,特别是与民生和国家安全有直接关系的石油、天然气的需求量更是增长迅速。管道运输由于具有高效、节能、安全、经济等诸多优点
<正>课堂提问是一种常规的教学方式,指在课堂教学中给予学生的教学提升和指导学生如何思考。课堂提问在小学语文教学中发挥着越来越重要的作用,教师对课堂提问的高度重视、对
研究背景和目的重度子痫前期患者病情危重,是导致孕产妇死亡的最主要原因之一。剖宫产是抢救重度子痫前期患者的有效手段之一。腰硬联合麻醉(CSEA)是近年新兴的一种麻醉技术,