论文部分内容阅读
时至今日,大数据时代已然来临。大数据及其中包含的大量信息,已成为了各行各业极为重要的决策资料。时间作为客观事物发展变化的基本描述,几乎所有信息都显式或隐式地具备时态特征。大数据的产生往往也是经过时间累积形成的,天然的具备时态属性。因此,对时态数据的有效支持已成为目前各行业应用的迫切要求。然而,传统基于快照的数据库技术仅能反映对象在某个时刻的状态,对时态信息的存储、处理十分有限。如何在海量数据库中对时态数据进行有效管理以支持快速、高效地检索到用户所需要的时态信息已经成为研究的热点。时态索引是时态数据库中加速查询的重要手段之一。然而,现有的时态索引技术主要针对时态属性创建索引结构,难以有效地支持用户的多样性查询。此外,由于时态数据库中数据的持续更新,使得目前的索引技术在保障查询执行高效性的同时,难以兼顾索引创建和维护的高效性。为此,本文针对时态数据库特性,就如何创建有效的索引结构,满足用户多样性的查询要求进行了研究。首先,论文阐述了信息时代时态数据管理的重要意义,并且对时态数据库的发展历程和国内外时态索引技术的现状进行了分析,总结了这些索引技术的特征和不足之处。其次,论文对数据库中索引技术进行了详细地介绍,其中包括B+树索引,以及SAP HANA中的Timeline索引,介绍了其查询、插入和删除等操作的实现,对其索引创建和维护的效率及满足多样性查询的局限性进行了分析。此外,介绍了分区索引加速并行的可行技术。再次,本文深入研究了数据库中满足多样性查询需求的时态索引技术,提出了一种面向时态数据的分段混合索引——SHB+树(Segmentation Hybrid B+-Tree,SHB+-Tree)索引。该技术首先将时态数据表按时间进行分段,在每个分段上建立局部的时间和对象的混合索引结构,时间和对象索引部分共享局部分段中的时态数据。进而,将用户查询分为四类,分别为时间版本查询、对象查询、复杂查询和跨时间段查询,本文详细介绍了基于SHB+树的四类查询实现方法。由于SHB+树索引结构有效的集中了对象索引和时态索引的优势,因此可高效的支持上述多种类型的查询执行。此外,对于每个局部分段混合索引,本文设计了自底向上的索引创建方式,结合分段索引策略,提高索引创建和维护的效率。最后,本文具体实现了上述的各项关键技术,并以基准数据集进行实验。通过对这些测试结果进行对比分析,验证了本文所描述内容的正确性及有效性。在处理时态数据时,该索引技术能够在满足用户多样性查询要求的同时,提高查询性能。