论文部分内容阅读
在石油勘探、遥感等领域中,海量数据文件经常以TB数量级别出现。在存储的过程中,时常由于单一存储设备的容量不足而导致海量数据文件无法存储,只能通过添加新的存储设备解决问题。当前许多技术都提供了将多个盘阵处理为一个虚拟盘的功能,以适应对TB级数据的存储。但这仍然不能避免多个存储系统中的“边缘”数据存储的问题,即一个磁盘系统剩余容量只能存储地震数据的一部分。其次,多种存储设备(例如磁带机)存储方法不同,造成在存储海量数据时不能统一有效的进行存储,而是需要通过转录等形式,降低了存储设备的存储效率,极大的影响了企业的工作效率。集群环境下,海量数据的存储还依赖于节点间高效的任务调度,资源的使用越平衡,作业响应时间就越短。所以一个适合的节点间任务调度算法对于缩短作业平均响应时间,提高节点资源平均使用效率进而提高海量数据存储性能有着非常重要的作用。由于以上的原因,相关领域中亟需要一种在集群环境下能够对海量数据进行存储管理的模型机制。在这种模型机制中,各种介质存储设备将进行统一存储、海量数据将跨盘跨介质存储并且采用高效的任务调度算法以缩短作业平均响应时间,提高存储效率。提出相应的跨盘存储方法和调度算法测试方案,并实现一个原型。主要研究内容:多介质存储设备统一存储机制。通过分析磁带机等多介质存储设备的存储特性,采用管道技术、进程机制以及底层IO系统调用等,屏蔽了存储设备的异构性,提出二套存储设备统一存储访问接口,最终实现了多介质存储设备的统一存储,并对一套解决方案在数据安全性和缓冲区大小等方面进行了对比。海量数据跨盘存储机制。分析了海量数据跨盘存储研究现状,采用底层文件IO存储访问接口,提出了海量数据跨盘存储访问机制,包括一套底层的文件跨盘读写接口,以及相应的配置跨盘操作系统原型,实现了海量数据的跨盘存储,并对相应存储接口进行了测试。集群环境下负载平衡调度算法。分析了基本的动态负载平衡算法,采用其中轮转法与加权法相结合的方法,提出了一种负载平衡调度算法,通过对实验算法的性能对比,该算法具有响应时间短、负载平衡次数少、额外开销少等特点,最终实现了工作效率的提高。