论文部分内容阅读
随着信息技术的深入发展,蜂拥而至的信息演变成了各个领域和行业分析、处理以及应用的关键,成为左右决策最重要的因素。几乎所有信息都显式或隐式地具备时态特征,探讨时态信息的存储与检索技术成为是时态信息处理的核心之一。当前架构在传统关系数据库之上的时态数据模型在进行超大规模和高并发的时态数据存储和处理时遭遇了性能瓶颈,暴露了诸多难以克服的问题,既无法满足对时态数据的高并发读写需求,同时也难以处理大量存在的类型复杂的非结构化数据,学者们开始逐步关注分布式系统基础架构Hadoop下的应用。Hadoop是一个开源的云计算架构,具有大规模扩展和水平分布的特点,可以提供动态的存储和计算能力,这就为海量时态数据的存储和快速检索提供了一个新思路。针对海量非结构化时态信息,构建了在分布式环境下的数据存储模型并在此基础上提出一种基本的时态数据处理方法。使用Hadoop平台下的分布式、非结构化数据库HBase对时态数据进行存储,构造以时态集合为时态存储单元的时态数据存储模型;对于时态信息的查询需求,针对分布式处理特征和时态集合数据类型,提出一种在Map/Reduce编程计算模式下进行时态信息关系演算的实现方法;通过扩展时态区间关系运算,实现以时态集合为基本时态数据操作对象的交、并等关系运算,并以医疗时态数据作为研究实例,表明了所提出的时态数据存储模型和关系演算方案在分布式应用系统下的适用性。对于时态信息的快速检索需求,设计了多级分布式哈希索引表算法(tDHT),实现对时态列族的时态属性值的高效、快速的检索。通过将时态属性值向二维空间映射,实现时态数据向空间对象的转化,采用对空间数据的处理方法对时态数据区域进行划分,生成多级时态数据子区域,利用分布式哈希表思想设计HBase存储的多级索引表目录。论文的创新之处包括:(1)针对传统的时态数据库在存储海量非结构化时态信息遭遇性能瓶颈,构建分布式存储结构HBase下的海量时态信息存储模型,设计了海量时态信息的存储架构;(2)对于存储体系中时态信息的查询、分析操作,提出一种在Map/Reduce编程模式下进行海量时态信息关系演算的方案,实现了以时态集合为操作对象的并、交以及笛卡尔积等时态关系演算过程;(3)针对海量时态信息的快速、高效检索需求,设计了多级分布式哈希索引表算法(tDHT),实现对时态列族的时态属性值的高效、快速检索。根据设计方案,文章最后进行了相应的性能测试和数据分析,从实验结果可以看出,本文提出的海量时态信息的存储、查询与检索方案在云计算平台下展现了良好的适用性,较大程度上提高了对海量时态数据的处理能力,表现出了较好的性能。