论文部分内容阅读
随着信息技术的发展,需要存储和管理的数据越来越多,作为存储系统重要支撑之一的分布式文件系统将面临更严峻的挑战。缓存机制是提高分布式文件系统性能的重要手段。本文以分布式文件系统中新型缓存子系统为研究对象,主要工作如下:
首先针对SAN环境下的分布式文件系统和清华大学高性能计算技术实验室研发的面向Flash对象存储系统,引入新型非易失存储器,设计了基于非易失存储器新型缓存子系统的结构,阐述了各功能模块的作用。
其次,针对分布式文件系统关闭文件时需要同步数据和元数据对性能的影响,提出了基于非易失存储器的客户端缓存机制。设计了基于非易失缓存的写流程,将数据和元数据缓存在非易失存储器上,在提高性能的同时避免数据和元数据丢失。设计了自适应缓存写回策略,通过动态调整写线程的数量,防止出现瓶颈。设计了基于报文合并的通信策略,减少通信对性能的影响。并在pNFS的基础上实现了原型系统,使用通用测试工具filebench应用fileserver与varmail负载,以及postmark设置5000、10000、30000和50000事务负载进行了测试,验证了基于非易失存储器的客户端缓存机制能提高分布式文件系统7%-1倍的I/O性能和1倍以上的事务处理速度。
最后,针对SSD中现有缓存资源紧缺、缺失文件系统语义以及Flash读写速度不对称和擦写次数有限等问题,提出了面向Flash的存储设备缓存机制。在文件系统层实现SSD的缓存,引入基于对象的缓存管理方式,给出了基于对象SSD缓存的结构,设计了基于扩展空间的缓存管理策略、数据与元数据关联管理方式,缓存主动调度策略,给出了基于对象缓存的访问流程。在面向Flash的对象存储系统中实现了原型系统,重放了TPC-C、Iphoto、Ipages、Seer四种负载的trace,设置不同的缓存大小,统计块设备发往Flash的bio请求数以及bio请求的平均大小,验证了该缓存能够减小55%-95%的bio请求数,bio的平均大小是原来的3.5-25倍之间。