论文部分内容阅读
随着互联网存储技术的快速发展,P2P分布式存储系统因其高可扩展性和稳定性而逐渐成为研究重点。虽然现在市场上已有的P2P系统很多,但是还存在一些问题,主要表现在以下几个方面:(1)很多存储系统都只采用副本冗余技术或者纠删码冗余技术,但这两种冗余技术各有优缺点;(2)大多数存储系统对系统中的所有文件都使用相同的冗余量,没有区别对待热点文件与普通文件,造成大量存储空间浪费;(3)没有考虑文件的创建时间对文件未来会收到访问情况的影响;(4)使用纠删码冗余机制对数据存储时没有考虑将数据块不均匀分布到存储节点上的情况。针对以上几个问题,本文围绕P2P存储系统的存储效率展开研究,主要包括两个方面,一是提出了一种新的动态混合冗余管理机制;二是分析了基于纠删码P2P存储系统中文件冗余对文件获取时间的影响,然后提出一个预测文件获取时间的数学模型。本文的具体工作如下:(1)首先介绍了P2P分布式存储系统存储效率优化的研究背景与意义并介绍了目前关于P2P存储系统的国内外研究现状。(2)分别深入研究了副本冗余技术和纠删码技术,并在冗余度、容错能力等多个方面进行了对比分析。(3)基于文件的访问量和创建时间,提出了一种新的动态混合冗余管理机制。该机制基于副本冗余技术和纠删码冗余技术,同时考虑了文件创建时间和访问频繁程度,把文件分成热文件和冷文件,分别采用不同的存储机制;同时机制还考虑了网络中负载均衡问题。然后通过多组模拟实验对本机制的优越性进行了验证。(4)分析了基于纠删码的P2P存储系统中两种不同的数据块分布策略,即数据块均匀分布策略和非均匀分布策略,提出了两种策略的目标文件最短获得时间估计值计算模型,得到了均匀分布策略下的目标文件获得时间估计值分布函数。由于非均匀策略的计算复杂性,只得到了其分布函数框架。实验表明,在稍微延长获得时间的情况下,数据冗余可有显著减少,并且对数据可用性的影响很小。