论文部分内容阅读
随着当前信息时代数据量的激增和数据价值的不断提升,存储系统必须采取有效的技术措施保障用户数据的可靠性、可用性和安全性。面对海量数据对存储系统各方面需求的挑战,如何对数据进行系统有效的保护已成为存储领域重要课题。由于网络存储系统的复杂性,单靠某一项数据保护技术是难以解决这个问题的,这要求采用系统化的方式,运用多层次、集成式的方法研究和设计存储系统中的数据保护技术。这些技术包括连续数据保护(Continuous Data Protection,简称CDP)技术、冗余数据容错技术、可伸缩的数据分布算法和自适应的数据迁移技术等,将它们结合在一起为存储系统提供了全面的系统化数据保护方案。首先从单节点存储设备入手,研究并设计了基于块级的连续数据保护技术。根据当前不同连续数据保护机制的优缺点,设计了一种基于任意时间点适时恢复(Timely Recovery to Any Point-in-time,简称TRAP)思想的连续数据保护机制——ST-CDP。ST-CDP在保留TRAP系统原有数据记录方式的基础上,按一定间隔值在恢复链条中插入对应时间点的快照数据,有效的解决了TRAP系统链条易失效和恢复时间过长问题。借助量化分析模型分析了该机制的性能并确定最优的间隔值,并在块级实现了该机制的原型系统。结合多组实验数据结果表明ST-CDP机制具有低存储空间开销、低系统性能影响以及高数据恢复效率的特点。接着设计了一种基于低密度校验码(Low Density Parity Check code,简称LDPC)的容错机制来提高冗余数据的可靠性。由于数据的恢复依赖于连续数据保护机制产生的冗余数据,因此有必要采用容错机制提高冗余数据的可靠性。使得数据不仅在单节点上能得到保护,在节点间也具有相互容错功能。根据数据分布的可靠性和存储开销的量化分析,得出一种优化的编码配置,并在iSCSI集群系统中实现了该容错机制。经过对比实验结果表明,无论在正常工作负载还是在降级工作负载下,通过增加少量的存储空间开销,采用小型LDPC容错机制能够有效地保障冗余数据的可靠性。然后针对大规模的网络存储设备会因节点失效、设备更新等原因使得不同节点的工作状态会经常发生变化的特点,设计一种高效的数据分布算法,使得存储系统的节点状态发生变化时,数据的分布能很快趋于平衡,并且所需迁移的数据量最少。采用了一种基于区间映射并根据存储节点的权值来均匀分配存储数据的分布算法,仿真结果表明,采用这种算法可以使得数据对象的分布与各个节点的权重成正比,并且在存储规模和权重发生改变时,移动的数据对象数量与理论的最少值相当。最后借鉴控制理论中的反馈控制技术,研究并设计了一种自适应的动态数据迁移解决方案。在保障存储系统的可靠性和负载均衡性能过程中,数据迁移成为存储系统重要的操作环节,无论是系统内部进行数据保护、冗余数据进行容错还是外部进行远程数据备份,都需要进行数据迁移操作。而通常数据迁移会消耗大量的CPU和内存资源,因此必须制定可自适应调节的数据迁移机制,使得数据迁移操作尽可能地少影响正常的工作业务流程。通过实验验证,该方案能依据存储系统在不同的应用场景执行相应的数据迁移策略,并且可以根据系统状态的变化动态调整迁移策略。这样,由块级连续数据保护到冗余数据容错机制,从数据分布再到数据迁移,这几方面的相关技术结合在一起形成了一个系统化的整体数据保护框架,成为保护高价值数据的有效解决方案。