论文部分内容阅读
在大数据时代,全球产生的数据量增长速度跟摩尔定理相当,大约每两年翻一番。数据作为日渐重要的新型资产,吸引了学术界和工业界的广泛关注。分布式文件系统,是存储行业技术和服务的一个重要创新和变革,它满足了众多用户对存储的低价、海量、安全和稳定的要求,让跨越时空的不同客户、不同应用、不同屏幕实现无缝信息分享和服务互动体验。LT码是第一种实用的数字喷泉码,其编译码算法非常简单,且编译码算法时间复杂度较低,将其运用在分布式文件备份系统中能够降低系统存储容量,但直接运用该方法会降低数据访问性能。在众多分布式文件系统中,因为HDFS部署在大量商用PC机上,具有高可靠性、可扩展性和廉价成本等优势,但HDFS的多副本策略给存储系统扩展造成了瓶颈。本文将LT码与HDFS备份优点结合起来,提出基于LT码的HDFS动态副本存储策略,并从理论上验证动态副本存储策略的可靠性,最后在此基础上设计并实现基于LT码的HDFS云存储系统。本论文的主要工作及贡献包括以下几个方面:1.研究LT码的相关原理,包括度分布设计和编译码算法等。在此基础上,分析其在分布式文件备份上应用前景。阐述HDFS的基本特征,并指出HDFS备份的优缺点。最后,将LT码和HDFS在分布式文件备份上的优势结合起来,提出基于LT码的HDFS动态副本存储策略,并从上理论上验证动态副本存储策略的可靠性。2.根据云存储系统的需求分析,详细设计基于LT码的HDFS云存储系统,包括云存储系统架构设计、客户端子系统设计、服务器子系统设计和HDFS集群子系统设计等。最后根据用户需求、系统架构和各个子系统,详细设计了数据库。3.根据云存储系统的详细设计,实现基于LT码的HDFS云存储系统。然后测试登录功能模块、备份功能模块和恢复功能模块,验证动态副本策略是否结合了LT码和HDFS在分布式文件备份上的优势。本文在研究LT码和HDFS的基础上,提出了基于LT码的HDFS动态副本存储策略,并据此实现了基于LT码的HDFS云存储系统,在纠删码和分布式文件系统两个方面均具有现实探索意义。