论文部分内容阅读
随着信息技术的不断发展,越来越多的信息在丰富人们的思想、扩大人们视野的同时,也为计算机进行海量信息处理带来了众多难题,其主要表现在以下几个方面:存在着大量的、异构的数据源,而且格式各异;同时这些信息又缺乏一个统一的规范化的描述方法;再者由于信息的更新速度非常快,因此还需要解决数据修改和同步的问题;此外还需要解决信息的易用性问题。本文针对以上海量信息处理过程中出现的困难和问题,提出了面向海量信息处理的数据网格MIPDG(Data Grid for Mass Information Process)。作为一种新型的数据管理和利用的体系架构,MIPDG提出了一种新的海量信息处理中心的数据网格建设模式,并通过为多种数据格式提供标准化的描述方式,以实现相关数据的自动关联、自动映射;通过对各类数据源提供副本创建策略、副本一致性算法和数据传输算法等,有效地解决信息资源的一致性共享问题,实现高速可靠的数据访问;通过对海量信息处理业务提供平台级和应用级的访问支持,从而极大地降低海量信息处理应用开发和使用的复杂性,为最终实现信息的全面共享和综合利用提供了一个高性能、大容量、广域覆盖的数据共享平台。本文以高性能、易用性和可扩展性为依据,对面向海量信息处理的数据网格的体系结构及若干关键技术做了详细研究和探讨,主要工作和贡献如下:1)结合海量信息处理需求的特点,设计了若干个由高速网络互联形成的分布式海量信息处理中心节点,建立了数据中心的数据网格建设模式,实现了对多数据源的稳定可靠访问,克服了由于数据源本身在存储容量、网络带宽以及可用性等方面差异所导致的访问瓶颈问题,为海量信息处理应用可扩展、可维护、易用性等目标提供了保障。2)基于面向对象的设计方法,给出了一种层次型的海量信息处理元数据结构定义,实现了灵活的数据映射机制。并根据这种元数据目录管理的方式,设计了一种基于服务的数据映射五层模型,实现了对海量数据透明、可扩展和开放的映射管理,为不同存储方式、不同格式类型的多种数据源提供了统一便捷的数据访问模式。3)根据海量信息处理业务流程的特点,给出了DRFT数据传输策略,建立了一种无监督的数据传输调度模型,提出了三种数据传输作业调度策略,并进一步对最优适合策略进行优化,优化算法不仅能够充分利用有效的传输带宽,而且还具有比较稳定的传输速率。4)针对副本管理机制的研究,提出了基于聚类的动态副本创建策略、基于活跃度的多阶段副本一致性算法。这两种算法克服了由于网络带宽有限、地理位置分散所带来的数据访问效率低等困难,有效地减少了平均作业执行时间,提高了网格资源的利用率以及网格环境的性能和可扩展性,并保证网格系统的正确运行。研究成果已在实验环境中得到测试,不仅验证了整个网格系统的可行性,还验证了对于一个具备论文提出的各项策略的网格系统,其数据访问性能能够得到明显的改善,为论文提出的各种技术的推广应用提供了有益的参考。