论文部分内容阅读
时间序列是由时序数据构成的特殊数列,被广泛用于预测分析、模式匹配、信息查找等应用中,是学术研究以及工业生产重要的研究对象。由于对数据的操作不可避免地会引入噪声,企业越来越关注噪声所带来的不确定性对结果的影响。本文基于连续型时间序列模型对索引构建进行研究,改进传统索引结构,构建适用于不确定性时间序列的索引结构。
首先,本文针对传统时间序列的预处理方法,比较了MA、ARMA、UMA等预处理技术对数据的影响,并概括了不确定型时间序列的基于概率分布的连续性模型和基于集合的离散型模型的表示方法。同时,基于传统空间索引的研究,讨论了预处理技术DFT对时序类型数据的作用。接着,讨论了可用于计算不确定性时间序列的相似性度量,以及不同度量的计算复杂度。之后讨论了传统空间索引结构的特性,总结不同索引关于序列型数据的使用特点,针对离线环境及实时环境下的序列型数据构建了更加具有针对性的索引结构。
然后,本文改进了传统R-tree索引结构,基于不确定性时间序列的连续型模型,进一步推导了基于误差函数的筛选公式,使用基于均值的欧氏距离量化了相似性差异,并为由均值和方差构成的连续型序列模型构建了VR-tree。为了提升查找的效率,本文利用度量的可量化性以及阈值的单调性,提出了快速筛选/过滤的DP剪枝策略。不同于传统的索引结构,本文通过预先计算出方差在每个树节点的极值,再利用方差极值计算出距离阈值的最小最大值,最后在阈值的最值上比较相似性的两种可能情况从而快速过滤非候选集以及获取候选集,保证了查找的效率以及精度。为了应对每个时戳对应不同的方差的情况,本文先将异方差序列规约到同极值方差后再构建索引结构再进行查找,同时为了避免规约过程造成过大的偏差,本文提出了基于方差权重的预处理算法。
最后针对在线环境下的流式数据,本文考虑到实时数据需要快速响应、低延时、高吞吐量的特性,有针对性地优化更新和查找算法。本文利用了KD-tree的更新优势和R-tree的查找优势,提出KDR-tree作为动态构建的索引。KDR-tree通过调节对应节点内可容纳的最大点数K来减少对叶节点的分裂次数从而提升数据更新的效率。同时,K值由于减少了动态构建过程中树的深度并提高空间内点分布的密集程度,使得KDR-tree在查找时对于节点的搜索更加高效。
首先,本文针对传统时间序列的预处理方法,比较了MA、ARMA、UMA等预处理技术对数据的影响,并概括了不确定型时间序列的基于概率分布的连续性模型和基于集合的离散型模型的表示方法。同时,基于传统空间索引的研究,讨论了预处理技术DFT对时序类型数据的作用。接着,讨论了可用于计算不确定性时间序列的相似性度量,以及不同度量的计算复杂度。之后讨论了传统空间索引结构的特性,总结不同索引关于序列型数据的使用特点,针对离线环境及实时环境下的序列型数据构建了更加具有针对性的索引结构。
然后,本文改进了传统R-tree索引结构,基于不确定性时间序列的连续型模型,进一步推导了基于误差函数的筛选公式,使用基于均值的欧氏距离量化了相似性差异,并为由均值和方差构成的连续型序列模型构建了VR-tree。为了提升查找的效率,本文利用度量的可量化性以及阈值的单调性,提出了快速筛选/过滤的DP剪枝策略。不同于传统的索引结构,本文通过预先计算出方差在每个树节点的极值,再利用方差极值计算出距离阈值的最小最大值,最后在阈值的最值上比较相似性的两种可能情况从而快速过滤非候选集以及获取候选集,保证了查找的效率以及精度。为了应对每个时戳对应不同的方差的情况,本文先将异方差序列规约到同极值方差后再构建索引结构再进行查找,同时为了避免规约过程造成过大的偏差,本文提出了基于方差权重的预处理算法。
最后针对在线环境下的流式数据,本文考虑到实时数据需要快速响应、低延时、高吞吐量的特性,有针对性地优化更新和查找算法。本文利用了KD-tree的更新优势和R-tree的查找优势,提出KDR-tree作为动态构建的索引。KDR-tree通过调节对应节点内可容纳的最大点数K来减少对叶节点的分裂次数从而提升数据更新的效率。同时,K值由于减少了动态构建过程中树的深度并提高空间内点分布的密集程度,使得KDR-tree在查找时对于节点的搜索更加高效。