论文部分内容阅读
时序数据被广泛应用于生产生活中的众多领域,由于时序数据具有时间累积特性,因而,其数据量通常十分庞大。而现有的存储方法在空间利用、查询速度上存在不足,因此,时序数据的高效存储与检索成为一个重要的课题。时序数据具有时间性、局部性、累积性、不可预测性等数据特征,本文的研究目标即针对上述特征,设计实现一种编码压缩算法,在保证数据准确性和完整性的情况下,对时序数据进行无损压缩,尽可能地减少数据冗余,提高存储空间利用率,同时保证数据检索效率,并最终将该算法应用到时序数据处理系统当中。本文设计实现了适于时序数据特征的行列存储结构。该结构针对时序数据不同阶段的应用需求,将行存储与列存储进行有机结合,为不同数据操作提供合适的数据结构。本文提出并实现了针对整型时序数据的TSDAC算法。该算法通过直接取址编码,实现了整型数据的变长高效编码压缩和直接访问。此外,TSDAC算法还通过相异数存储策略有效减少连续冗余数据的存储;通过LGAP压缩算法,以差值代替原数据进行存储,有效减少数据存储所需的空间;通过限制层数的动态规划提高数据的随机访问效率;通过连续数据查询算法,提高数据的连续读取效率。本文提出并实现了针对浮点型时序数据的FTSDAC算法。该算法通过浮点数小数点的移位操作,将浮点型数据转换为整型数据,并结合TSDAC算法以整数形式实施编码压缩,从而实现了浮点数的高效无损压缩存储和快速查询。实验结果表明,TSDAC算法和FTSDAC算法可以有效地实现时序数据的高效存储与检索,其压缩率和检索速度等性能显著优于DAC算法及Bzip2算法。本文还设计实现了时序数据高效存储与检索系统,通过实现分治存储、分层存储等存储策略,从系统结构层面提高了时序数据的压缩效果和检索速度。