论文部分内容阅读
目前高性能计算机和高性能服务器已逐渐使用大规模集群结构。集群文件系统是集群的一个重要组成部分,作为一种集群体系结构上的并行文件系统PVFS(Parallel Virtual File System),为用户提供一个虚拟化大容量存储器的统一访问接口和高I/O带宽。由于集群文件系统的文件数据分散存储在各个节点上,文件的定位需要借助元数据来完成,并且考虑到元数据的故障对文件系统损害严重,因此对元数据进行容错成为管理元数据的一个关键。为了解决PVFS中元数据管理的瓶颈,高可用性集群文件系统元数据容错系统MDFTS (MetaData Fault Tolerance System)以PVFS为基础平台,对系统中元数据的故障进行检测与诊断,并进行检查点恢复。为了达到复杂的元数据管理一致性,采用了一个无集中式服务器的体系结构,保证所有的数据和元数据能够存放到系统的任意地方,并且在操作的过程中可以动态迁移;采用元数据的磁盘日志结构和内存日志结构相结合的方式对元数据进行管理,减少了fsck对庞大的文件系统中元数据的扫描时间;为了实现故障恢复,提出了元数据容错的设置检查点算法和回卷恢复的算法,提高了文件系统元数据服务的可用性;给出了基于元数据故障的随机过程模型,可以通过减少检错时间提高文件系统的可用度。系统在操作系统应用层实现,通过修改元数据结构和相关的系统调用,使得集群文件系统内部各个数据节点和元数据管理节点相互协作,统一调度,支持高可用性。测试结果表明,元数据容错系统可以针对系统模拟的不同类型的故障进行错误检测,并能够对系统和应用进行切换与恢复。