论文部分内容阅读
云存储服务作为云计算的重要内容,是解决海量用户访问海量数据的关键技术。个人云存储作为云存储的典型应用之一,不仅为用户提供了基本的数据存储功能,还提供了文件多端同步、工作协同、多应用汇聚等功能,已经成为一种较为流行的数据服务,但仍面临着用户更高服务质量要求的挑战。论文针对云存储后端分布式文件系统的缓存机制开展研究,为海量用户在海量存储的背景下提供更高效的个人云存储服务。通过分析真实的个人用户访问数据集,综合考虑个人云存储的应用场景,论文发现传统缓存机制中存在低读写比场景下缓存存储空间的利用率问题,以及海量缓存文件场景下缓存替换的执行效率问题,这些问题关系到个人云存储服务的成本与服务质量。针对低读写比场景下缓存存储空间的利用率问题,论文提出了基于动态决策的缓存文件选择策略。该策略通过对频繁访问文件的大小和类型进行在线分析,动态判断请求文件是否应当放入缓存,避免将“只一次访问”的文件放入缓存,并通过文件访问次数和文件访问时间间隔对不满足文件大小、类型的频繁文件进行弥补,降低项误判的可能性。实验证明,基于动态决策的缓存文件选择策略可以显著提高缓存空间的利用率,在维持缓存容量的低成本条件下,提升缓存命中率,且决策时间较低。针对海量缓存文件场景下缓存替换的执行效率问题,论文提出了基于分代技术的缓存文件更新策略。该策略被设计实现为一种功能框架,可应用不同的缓存替换算法,在保持原有缓存替换策略特性的同时,为缓存对象增加生命周期管理功能,并通过更新缓存对象的生命周期,缩小缓存替换执行的范围。实验证明,基于分代技术的缓存文件更新策略可以有效提高缓存替换效率,解决“缓存污染”问题,且灵活可配,适合用户使用场景多样化的个人云存储系统。最后,论文在为开源分布式文件系统HDFS实现缓存模块的基础上,将以上两种缓存策略应用到HDFS中,从而优化个人云存储系统使用HDFS作为后端存储时的系统性能,并在实际运行中取得了较好的效果。