论文部分内容阅读
随着科技的进步,时间序列成为应用最广泛和最常见的数据类型之一,例如在金融、医学和气象学等领域,都会产生大量的时间序列数据。对时间序列数据的研究与分析已经受到了越来越多的关注,然而由于时间序列数据具有连续性的特点,其数据量通常十分庞大,给数据存储和传输造成了很大的困难。因此在越来越庞大的时间序列上进行有效的压缩处理成为了一个急需解决的问题。对于时间序列近似压缩问题,分段线性函数逼近的方法是应用最广泛的解决方法之一。这些方法对时间序列能够取得较好的压缩效果,但是没有充分挖掘和利用时间序列的内在联系和特征。例如对于存在较多相似片段的时间序列的压缩,可以充分利用其存在基序的特征来获得理想的压缩比率,使得压缩效果最大化。本文提出了一种新型的面向时间序列的阈值近似压缩方法,其基本思想是利用时间序列中相似的子序列来对整个时间序列进行压缩。对于时间序列子序列的相似性计算问题,本文提出了一种时间序列二叉树结构转换的思想,将时间序列转换成二叉树结构,通过二叉树结构的比较可以直接排除不相似的子序列,提高了时间序列相似性计算的效率。本文通过滑动窗口机制在时间序列中搜索相似的时间序列子序列,对于滑动窗口带来的频繁建二叉树的问题,提出了一种动态增量树,可以动态的调整建二叉树,有效的减少了算法的时间开销。本文不但在理论上证明该压缩方法的正确性,保证了压缩后的时间序列的误差是在阈值范围之内,而且通过实验验证了这种压缩方法可以在较高的精确度的条件下得到理想的压缩水平。