论文部分内容阅读
时间序列相似性问题是时间序列挖掘中的一个重要而基础的问题,为其他的挖掘手段提供必要的技术支持和手段,也经常作为其他挖掘问题的一个子程序,自从提出以来一直是一个备受关注的研究热点问题。围绕静态时间序列比较、动态时间序列匹配等方面,开展了六方面的研究工作:时间序列建模、静态时间序列的相似比较、动态时间序列的相似匹配、时间序列相似比较的提前终止和效率估算、相似序列的排序以及相似序列搜索原型系统的研究。为改变当前时间序列建模表示方法缺少时间特征的现状,通过分析逐段聚集平均(Piecewise Aggregate Approximation, PAA)表示方法,提炼出时间序列的时间特性,对于较近时间段的数据具有较高的参考价值,而较远时间段内的数据则具有较低的参考价值。改造PAA表示方法,得到逆向逐段聚集平均(Reversed Piecewise Aggregate Approximation, RPAA)表示方法,对不同的分段引入不同的影响因子,证明了基于RPAA方法的距离下界于Euclidean距离,保证在时间序列相似搜索中不会发生漏查。实验结果表明,RPAA较PAA在相似搜索中具有较小的错差率。将自适应逐段常量近似(Adaptive Piecewise Constant Approximation, APCA)表示方法扩展到动态时间序列的分段中,得到自适应逐段常量近似(Adaptive Piecewise Constant Approximation on Stream, APCAS)。APCAS能够在线性时间内完成在线时间序列流的分段,比APCA具有更少的内存消耗和更短的分段时间。当前的动态时间序列弯曲距离(Dynamic Time Warping, DTW)下界函数,要么采用序列间的较少特征而与实际的DTW具有较大差异,要么不具备对称特性而限制了下界函数的应用范围。在分析DTW下界函数特性的基础上,给出了一种DTW下界函数LB_HUST,证明了LB_HUST具有对称性和下界性。将LB_HUST扩展到时间序列集合的距离计算中,证明了LB_HUST在时间序列集合计算中的性质。实验结果表明,LB_HUST不仅是时间序列基于DTW计算的一种紧密而对称的下界函数,而且在时间序列聚类中能够取得较好效果。为改变当前时间序列流匹配中多是采用单一的相似比较手段的现状,给出一种支持多种比较方法的时间序列流匹配模型框架Multi-TSource,将比较方法和其他的时间序列流处理手段分离。在Multi-TSource的基础上,分别重点分析了基于Euclidean和DTW的比较方法,最后通过实验验证了Multi-TSource框架的可行性。结果表明,支持多种比较方法并不会使系统的效率有显著降低,通过分发机制可以使多种比较方法相互独立,为系统的动态扩展提供了保证。为提高计算的效率,将提前终止技术引入到了DTW距离的计算中,在分析DTW提前终止性质的基础上,给出DTW提前终止算法EA_DTW,用实验验证了DTW提前终止算法的效率。EA_DTW方法可以跳过冗余的DTW方格计算,经常在不需要全部计算精确DTW距离的情形下即可完成序列的DTW相似比较,从而节省计算资源。以前的提前终止技术的效率都是建立在实验验证的基础上,而缺乏理论化的工具,为此,设计了一种提前终止的效率估算方法EA_Estimate,通过对有效计算路径上溢出的估计,最终估算出最终的提前终止的效率。理论计算和实际的计算的实验对比结果表明,EA_Estimate可以确定一个大致的效率范围,帮助用户确定最终有效值。由于时间序列不具备显式的关键字,目前出现的基于关键字的排序方法不能直接应用于时间序列的排序。在对时间序列排序的问题进行定义的基础上,根据时间序列与序列集合边界的关系得出了基于时间序列边界的排序方法TS-Sort,并且在实现时实现了基于划分的改进方法,证明了改进方法与直接方法的等效性。最后通过实验对TS-Sort进行了验证。结果表明,TS-Sort不仅可以作为一项时间序列处理的工具,而且可能根据排序的结果对所处理的数据有深层次的认识。以上述研究成果为基础,设计和实现了一个时间序列相似搜索的原型系统TimeSeriesSim1.0,为时间序列相似性问题提供了统一的实验平台和扩展依据。