论文部分内容阅读
数据网格是近年来兴起的一种技术,它将Internet上存在着的大量分散的、独立的、异构的储存系统组织成一个可靠、安全的逻辑意义上的整体,从而为用户提供高效的、高可靠的、可扩展的、大规模的存储资源,是一个以数据为主要资源的理想的虚拟存储系统,从而为各种网格应用提供良好的支持。一方面,利用网格环境的高效处理能力可以实现大规模数据的有效整合,并有效地利用已有的众多的数据资源;同时,也可以利用数据网格系统高效的数据管理能力,为网格内实现数据库资源的有效管理、分布数据的集成优化以及大数据的分析处理等提供强有力的支持。
数据副本文件是数据网格环境下数据存储的主要形式。数据网格主要的挑战是支持快速数据读取;而在网格中支持快速数据读取的主要阻碍是广域网的高延迟性。为了实现快速数据读取,大量数据需要拷贝多个副本在网格内广泛分布的节点上。一个数据网格应该提供有良好的副本管理系统,能够实现资源的动态获取,满足用户的需求(最小化用户获得数据以及提交作业执行的代价)和最大化网格数据资源的利用率。然而,存储系统的数量和大小是有限的,副本管理系统需要有一套非常完善的副本创建、定位选择、维护等策略来满足高性能的需求。
本文设计出一种树型副本文件存储目录,采用基于副本定位索引RLI和本地副本目录LRC的层次式结构,将逻辑副本文件名LFN转换为实际存储在网格中的物理副本文件名PFN,实现了副本的快速定位。通过对目前数据网格研究领域相关副本算法的分析,本文提出了基于微粒群算法的副本创建策略和基于遗传算法的副本选择策略,研究结果表明这两种策略具有良好的性能。最后在比较了几种网格体系结构的基础上,开发出基于Web服务资源框架的副本管理系统,将副本处理的相关操作封装为网格服务,供上层应用调用,此外该副本管理系统还具有用户分级访问机制,具有良好的应用价值。