论文部分内容阅读
随着数据量呈爆炸式的增长,文件系统的规模也在不断膨胀,系统中文件数量达到千万甚至上亿,分布式文件系统能很好的解决大规模文件存储的问题,如Google的GFS(Google File System)文件系统等。文件系统中文件元数据是描述文件基本特征的数据,文件系统管理员和用户都需要通过文件元数据来快速定位需要的文件,如何组织和索引分布式文件系统的海量元数据是一项亟待解决的问题。为了解决文件系统海量元数据高效访问与查找的问题,在分析了元数据访问、查找、分布特性的基础上,给出一种分布式文件系统元数据组织与索引方法,该方法考虑文件系统元数据查找功能,将文件元数据根据目录树进行层次性分区组织,并将每个分区的元数据顺序存储到磁盘;采用布隆过滤器(Bloom Filter)为每个分区建立目录表用于快速过滤与查找不相关的分区;借助多维检索树(K-D树)为分区建立内存索引以支持多维元数据属性的查找;建立更新日志保存元数据的更新,将元数据更新实时同步到索引以满足实时查找的需求,并周期性的同步到磁盘。基于上述方法,设计并实现了分布式网络文件系统(Distributed File System,DNFS)的元数据管理模块原型Mspy(Metadata Spy),并对其进行实验评估。实验证明,Mspy的元数据查找效率比传统方式提高3-8倍,使得文件系统大部分的元数据查找操作能在1秒内完成。