论文部分内容阅读
时间序列数据是一种常见的数据形式,广泛存在于各种现实应用中。相应地,利用数据挖掘技术从时间序列中发现其中蕴含的信息和知识也成为了研究的热点,其研究成果在金融、工业、农业、医药、气象、交通、计算机网络等领域取得了成功的应用。然而不同于传统静态数据,时间序列数据通常具有时序性、数量大、维数高、特征多等特性。因此,研究如何有效地通过时间序列数据挖掘技术来处理和分析时间序列数据具有重要的意义。本文以时间序列数据为研究对象,针对时间序列的高维特性,主要研究时间序列的维数约简技术,包括特征提取方法与特征表示方法。从时间序列的应用角度出发,主要研究时间序列的预测方法,包括单变量时间序列的预测与多变量时间序列的预测。时间序列的特征提取是通过选择数量较少且反映原序列主要信息的特征子集实现维数约简的技术。针对时间序列的时序特性,本文提出了一种基于因果关系挖掘的多变量时间序列特征提取方法。该方法是一个二维的特征提取,即不仅提取出特征变量,也提取特征变量的有效滞后期。同时,利用Granger因果关系挖掘的因变量及滞后期所组成的特征子集对结果也有较好的因果解释性。时间序列的特征表示是将高维的时间序列数据转换为低维表示并尽可能保留原始时间序列的特征信息。针对传统符号表示方法中只根据均值特征描述原始时间序列可能造成信息丢失的不足,本文提出了基于趋势距离的时间序列符号聚集近似表示方法,并构造了满足距离下界性的距离度量。首先提出了基于序列段起点值和终点值的趋势距离度量方法来量化不同趋势的差异,然后把趋势因素集成到原符号聚合近似表示方法中,实现利用均值特征和趋势特征共同表示原始时间序列。单变量时间序列预测是利用时间序列自身的历史值来预测未来的数据。针对传统的基于自回归滑动平均模型的预测模型建立后不能更新最新时间序列信息的不足,本文通过将自回归滑动平均模型的差分方程形式与传递形式结合,构建了一种预测值实时自修正的预测模型。新的预测模型会包含新的观测值的影响,从而提高预测的精度并减少运算量。多变量时间序列预测是利用多个变量时间序列对目标时间序列进行预测。本文的预测方法首先利用基于因果关系挖掘的特征提取方法对多变量时间序列进行特征选择,然后使用支持向量回归对目标序列进行预测。特征提取过程中剔除冗余变量和无关变量,从而达到降低支持向量回归的输入维数并提升预测准确率的效果。