论文部分内容阅读
分布式文件系统以其高可靠性、高可扩展性以及高性能和高性价比成为高性能计算平台存储系统的首选,已经在军事技术、天气预报等环境中得到广泛应用。相比其它文件系统,它具有两个特点:一是通过数据的分布存储,来提供更大的存储空间,并利用并行的I/O服务模式提供更高的I/O带宽;二是通过使用各种新颖的分布式存储体系结构,来为应用程序提供更丰富的I/O模式。比如通过使用对象存储技术,为应用程序提供面向对象的数据存储格式,并提供Peta级大小的存储空间。Lustre是典型的基于对象存储体系结构的并行文件系统,它起源于卡耐基梅隆大学的Coda项目研究工作,已经成为当前高性能计算领域使用最广泛的并行文件系统之一。Lustre具有良好的大文件I/O性能,但是由于Lustre使用分布式的存储体系结构,文件元数据和数据分开存储,它的小文件I/O性能低下,甚至不如本地文件系统。本文以Lustre为具体研究对象,通过研究Lustre的存储体系结构和实现原理,在Lustre的OST组件中设计并实现了一种分布独立式的小文件Cache结构:Filter Cache。该方法通过扩展Lustre的OST端的数据通路,在原有数据通路的基础上,增加对小对象I/O的缓存措施,以此来改善Lustre的小文件性能。测试表明:使用Filter Cache方法之后,Lustre的小文件I/O性能得到了很好的改善,在Cache资源全命中时,读性能最大能够提高65%。命中率和访问延迟是Cache系统中最重要的两个指标。本文研究了Cache技术的设计思想和实现技术,设计了对Filter Cache方法的优化方案。优化方案主要针对方法使用的资源结构、Cache置换算法和Cache读写流程。本文下一步工作将进一步完善这些优化措施的设计,并进行实现。最后,本文对分布式文件系统中的另一种Cache结构:协作-对象Cache进行了研究,详细介绍了其特点和实现,对比了该Cache结构和Filter Cache方法的不同点,根据它的优点提出了两点对Filter Cache方法的改进思想。