论文部分内容阅读
[摘 要]在经济学领域时间序列是一种十分重要的方法,通过这种方法可以有效的描述出数据在一段时间内的具体变化规律,这对研究经济发展问题、医学发展、工程建设等都是十分重要的。而对非平稳时间序列数据的相似性研究对于各个领域的发展所起到的作用也是十分重要的。所以接下来在本文中我们就来详细的分析一下非平稳时间序列数据所存在的相似性,以及具体的研究方法。
[关键词]非平稳时间序列 相似性 研究方法
一、引言
时间序列在经济学、医学、工程建设研究过程中起到的作用是十分重要的,通过使用这种方法可以提高数据分析的准确性。时间序列具体指的就是在一个随机的过程中,如果随着时间变化随机过程的特征不发生变化,就是平稳的时间序列,如果随着时间的变化随机过程特征也发生变化,就称为非平稳的时间序列。在解决实际问题过程中,序列是我们经常遇见的,尤其是那些反映经济现象或者是社会问题的序列,这些序列通常情况下都是不平稳的,具有周期性和趋势性。
二、非平稳时间序列的预测方法
1.回归方法,该方法是G.U.Yule在1920年提出的,但是这种方法在进行数据预测时并没有起到太大的影响。所以在实际研究过程中并没有得到广泛的应用。
2.ARIMA模型,70年代以后提出了ARIMA模型出现了,该模型在国际上产生了极大的影响,是现在世界上理论最为完善的预测方式。随着计算机技术的快速发展,该方法也得到了进一步的发展,所以该方法得到了广泛的关注。
三、时间序列相似性研究
1.时间序列分段算法
目前在计算非平稳时间序列数据的相似性方法时最常用的方法就是分段计算。主要包括三个方面,即累计残差、平均残差以及最大偏差。
2.改进算法
随着社会的快速发展,传统的分段算法已经不能准确的反映时间序列的发展状况,产生的结果也不能满足各领域的发展需要。目前主要存在两个问题,一个是这种方法不能在短时间之内有效的分析出数据的变化趋势;二是采用平均误差分段算法不能在长时间内做好数据的分界工作,还会出现很大的偏差。
现在存在的分段线性算法都存在着很大的缺陷,通过分析我们可以发现以下两个问题:
①过拟合:在分析整个分段时,我们可以将其分成两段,这样就可以获得更好的效果。
②欠拟合:在短时间内,因为存在积累残差这样就可能出现数据的大波动,这是由数据的不敏感性造成的。
3.子序列线性度
一般我们采用子序列线性度来衡量子序列的拟合程度,该方法是在累积残差的基础上进行的。如果线性度越高,与原始数据之间的距离越近。
4.双误差阀值算法
累计残差在计算数据序列时没有考虑子序列平均残差的状况,所以能够有效的覆盖数据波动的状况。但是在实际分段过程中会存在较大的误差。这也会影响计算的准确性。
四、相似性分析方法的优劣
在本文中我们详细的介绍了有关时间序列数据相似性分析的方法,通过对这些方法进行分析和总结发现主要有以下三个问题:
第一,在选择分析相似性的度量标准时,存在以下几个问题:
1.在度量时间距离相似性时,如果选择欧式几何距离作为标准会存在很多问题,尽管通过研究我们已经提出了一些具体的改进措施,但是仍然不能完全弥补这些问题。
2.在提出相似性的概念时存在一定的主观性,也就是说相似性只存在在某些约束条件之下才能进行。研究非平稳时间序列数据相似问题就是探讨函数之间的关系。
第二,在计算序列数据相似性时最主要的就是要研究时间的复杂程度以及特征。所以在比较相似性时通常采取以下几种方法,即分段累计近似、离散傅里叶变换、离散小波变换、界标模型等等。这些方法在研究相似性问题时主要有两个基本思路,即处理分段特征以及处理正交变换。
第三,这些方法在虽然仍然存在一些问题,但是在实际应用过程中仍然发挥了极大的作用。
五、需要研究的问题
对于非平稳时间序列数据的相似性问题已经得到了一定的发展,但是在研究过程中仍然存在很多难点,比如相似性的定义,具体的算法,以及复杂程度的衡量等等。
六、总结
随着社会与经济的快速发展,对经济的研究也越来越多,这就需要我们加强对经济发展中各种数据的研究,这样才能获取更多有用的信息,才能进一步掌握经济发展的规律,制定适当的发展计划。而非平稳时间序列数据的分析就是一种极其重要的方法,在未来该方法会起到极其重要的作用,我们应该加强对这种方式的研究。
参考文献:
[1]毛国君.段丽娟等,数据挖掘原理与算法.[M].清华大学出版社.2005
[2]张军.基于时间序列相似性的数据挖掘方法研究.[D].南京.东南大学.2004
[3]王露珊.对时间序列相似性查询的最优小波误差估计.[J].计算机应用.2007
[关键词]非平稳时间序列 相似性 研究方法
一、引言
时间序列在经济学、医学、工程建设研究过程中起到的作用是十分重要的,通过使用这种方法可以提高数据分析的准确性。时间序列具体指的就是在一个随机的过程中,如果随着时间变化随机过程的特征不发生变化,就是平稳的时间序列,如果随着时间的变化随机过程特征也发生变化,就称为非平稳的时间序列。在解决实际问题过程中,序列是我们经常遇见的,尤其是那些反映经济现象或者是社会问题的序列,这些序列通常情况下都是不平稳的,具有周期性和趋势性。
二、非平稳时间序列的预测方法
1.回归方法,该方法是G.U.Yule在1920年提出的,但是这种方法在进行数据预测时并没有起到太大的影响。所以在实际研究过程中并没有得到广泛的应用。
2.ARIMA模型,70年代以后提出了ARIMA模型出现了,该模型在国际上产生了极大的影响,是现在世界上理论最为完善的预测方式。随着计算机技术的快速发展,该方法也得到了进一步的发展,所以该方法得到了广泛的关注。
三、时间序列相似性研究
1.时间序列分段算法
目前在计算非平稳时间序列数据的相似性方法时最常用的方法就是分段计算。主要包括三个方面,即累计残差、平均残差以及最大偏差。
2.改进算法
随着社会的快速发展,传统的分段算法已经不能准确的反映时间序列的发展状况,产生的结果也不能满足各领域的发展需要。目前主要存在两个问题,一个是这种方法不能在短时间之内有效的分析出数据的变化趋势;二是采用平均误差分段算法不能在长时间内做好数据的分界工作,还会出现很大的偏差。
现在存在的分段线性算法都存在着很大的缺陷,通过分析我们可以发现以下两个问题:
①过拟合:在分析整个分段时,我们可以将其分成两段,这样就可以获得更好的效果。
②欠拟合:在短时间内,因为存在积累残差这样就可能出现数据的大波动,这是由数据的不敏感性造成的。
3.子序列线性度
一般我们采用子序列线性度来衡量子序列的拟合程度,该方法是在累积残差的基础上进行的。如果线性度越高,与原始数据之间的距离越近。
4.双误差阀值算法
累计残差在计算数据序列时没有考虑子序列平均残差的状况,所以能够有效的覆盖数据波动的状况。但是在实际分段过程中会存在较大的误差。这也会影响计算的准确性。
四、相似性分析方法的优劣
在本文中我们详细的介绍了有关时间序列数据相似性分析的方法,通过对这些方法进行分析和总结发现主要有以下三个问题:
第一,在选择分析相似性的度量标准时,存在以下几个问题:
1.在度量时间距离相似性时,如果选择欧式几何距离作为标准会存在很多问题,尽管通过研究我们已经提出了一些具体的改进措施,但是仍然不能完全弥补这些问题。
2.在提出相似性的概念时存在一定的主观性,也就是说相似性只存在在某些约束条件之下才能进行。研究非平稳时间序列数据相似问题就是探讨函数之间的关系。
第二,在计算序列数据相似性时最主要的就是要研究时间的复杂程度以及特征。所以在比较相似性时通常采取以下几种方法,即分段累计近似、离散傅里叶变换、离散小波变换、界标模型等等。这些方法在研究相似性问题时主要有两个基本思路,即处理分段特征以及处理正交变换。
第三,这些方法在虽然仍然存在一些问题,但是在实际应用过程中仍然发挥了极大的作用。
五、需要研究的问题
对于非平稳时间序列数据的相似性问题已经得到了一定的发展,但是在研究过程中仍然存在很多难点,比如相似性的定义,具体的算法,以及复杂程度的衡量等等。
六、总结
随着社会与经济的快速发展,对经济的研究也越来越多,这就需要我们加强对经济发展中各种数据的研究,这样才能获取更多有用的信息,才能进一步掌握经济发展的规律,制定适当的发展计划。而非平稳时间序列数据的分析就是一种极其重要的方法,在未来该方法会起到极其重要的作用,我们应该加强对这种方式的研究。
参考文献:
[1]毛国君.段丽娟等,数据挖掘原理与算法.[M].清华大学出版社.2005
[2]张军.基于时间序列相似性的数据挖掘方法研究.[D].南京.东南大学.2004
[3]王露珊.对时间序列相似性查询的最优小波误差估计.[J].计算机应用.2007