论文部分内容阅读
随着硬件、网络与通信技术的飞速发展和实际应用需求的持续推动,数据流作为一种新的数据形式在众多领域有着广泛的应用。目前对于数据流管理的研究成果主要集中于近期数据流的在线管理与远期数据流概要结构的动态维护,而针对历史数据流存储及管理技术的研究成果还不多见,现有数据流管理系统的历史数据流存储及管理性能还比较弱。然而在一些实际应用领域里,人们往往不仅需要近期数据流,还需要结合大量历史数据流来共同解决问题。本文从历史数据流存储模型角度出发,研究提高历史数据流存储管理效率的技术与方法。
已有的组织大量历史数据的技术有:多元存储模型(NSM模型)和分解存储模型(DSM模型)。在大坝安全监测、火山状态监测等数据流应用场景下,在每个采样时刻,传感器结点同时向数据流管理系统传送若干指标的采样数据。把每个时刻的所有采样数据作为一个记录存储起来,不作其它更多的分解处理(即采用NSM模型),则可以获得比较高的首次存储效率,但不利于后期数据的访问。为了提高对存入历史库中数据流的后期访问效率,一般需要建立相应的索引结构。然而在每次数据流存入历史库的同时,都进行索引更新操作,会严重降低首次存储的效率,甚至会发生宕机现象,不能满足高速数据流的历史存储。本文设计适用于历史数据流存储及管理的节律存储模型(The Rhythm Storage Model,RSM),不但具有较高的首次存储效率,还可以通过所设计的新索引技术改善后期访问效率。
已有研究表明,硬件技术(特别是缓存技术)的发展,使CPU和内存之间的缓存失效现象成为数据管理系统新的主要性能瓶颈之一,于是,缓存器(Cache)敏感的索引技术相继问世。本文对Cache敏感的索引技术进行深入研究,提出一种适合历史数据流的高效的Cache敏感的索引结构-BHB-树(B+&Hash&Bitmap-Tree)。BHB-树采用分层结构,将B+-树和Hash技术相结合,能有效降低树的高度,减小索引项的规模,从而提高索引数据的Cache命中率,减少缓存失效现象;在BHB-树的叶子节点层,采用位图(Bitmap)技术提高索引的空间效率及相应的数据操作效率。
本文还设计了基于RSM模型与BHB-树索引结构的相关历史数据流操作算法;并在STREAM原型系统基础上设计和实现历史数据流管理系统原型MyStream;基于该原型进行了历史数据流管理性能对比分析研究。
理论分析和实验结果表明,BHB-树在一般历史数据流查询性能上略优于B+-树,在基于特定值的查询时具有明显优势。本文所研究的RSM模型与技术能有效应用于历史数据流的存储和管理。