论文部分内容阅读
摘 要:伴随着我国市场经济的发展与繁荣,股票已经走进了我们的各家各户,成为了与大多数人息息相关的投资产品。因此,对于股票走势的预测也成为越来越多的人所关注的问题。本文对数据挖掘技术做了深入的研究,探讨了时间序列法在股票趋势的预测方面的具体应用。目前,时间序列预测方法己经成为预测法中比较成熟的一个理论体系。因此,可以对股票市场未来的走势进行相对成熟的预测,并且为对股市的研究提供理论与技术的支撑,并为广大股民提供相应的选股建议。
关键词:股票预测;时间序列法;ARIMA模型
一、Clementine软件的介绍
Clementine软件是一款适用于商业用户的高品质数据挖掘的产品。该软件具有丰富的数据挖掘方法,并且支持与数据库之间的模型和数据的交换。同时,该软件也具有可视化操作的界面,操作方法简单易学,结果分析直观易懂,同时它的图形功能也非常强大。
该软件将一系列的数据处理程序或者技术整合成彼此之间相互独立的模块,例如将决策树、时间序列、神经网络、聚类、回归、关联规则等多种数据挖掘技术集合在可视化图形的界面中,因此对于那些不懂编程但又经常需要进行大量数据处理的用户来说,它要比Excel更易用更高效,而且构建的数据流一经保存后可在下一个相似的任务中稍做修改就可使用。
本文主要采用时间序列数据挖掘模型进行操作。在时间序列模型中包含着专家模型、指数平滑模型和ARIMA模型3种建模方法。本文会对这三种方法依次进行建模,从而选出最优的建模方法,得出最准确预测。
二、国内外研究现状
刘滢(2010年)分别运用决策树分类法,时间序列法和神经网络对股票的价格的预测进行了实际的应用,分析了各个方法的弊端和长处。李卫民(2004年)使用ARMA-广义回归神经网络技术对股票价格的走势进行了预测,克服了单纯的ARMA模型的弊端。王振兴(2010年)建立了基于BP和RBF神经网络的神经网络模型和依据拟合误差确定权数的组合神经网络模型,并且进行了实证分析,最后表明组合神经网络模型在精度和稳定性上都要比单神经网络模型高,具有更为广阔的应用前景。张炜(2013年)认为粗糙集在解决股票预测等不确定性问题上具有独特的优势。
因此,对于股票各个方面的预测,学者们已经做了很多有价值的工作。同时也给我们提供了许多需要借鉴和学习的东西。但是由于股票市场的复杂不确定性就注定了之后的股票市场还有很多新的规律和规则等着我们去提取和挖掘。
三、Clementine实证研究
(一)数据来源。本文选取沪深300成分股中的热门股票中信证券(600030)股票2014年8月11日到2014年12月12日的收盘价,共收集到84个数据样本。通过对这84个数据的分析,来预测未来一个月内中信证券股票价格的大致走势。本文所有的数据均来自于新浪财经。
(二)数据的预处理。考虑到在建模过程中股票市场在双休日和节假日不开市的特殊性,我们收集到的数据在时间段上是不连续的,也就是说,在不开市的时间点上,数据是缺失的。所以为了方便利用模型来分析,我们通过利用最近点的平均值的填充办法,来使得数据(收盘价)在以天为时间的单位上能够具有连续性。
(三)模型的选择与建立。本文以中信证券2014年8月11日至2014年12月12日每日收盘价作为数据源,建立数据流。
因为对股票研究的目的在于能够在一定时间段内对股票价格进行较为准确地预测,所以在本次研究中,我们也要通过选择较为合适的模型,对中信证券每日的收盘价进行预测。因为预测的时间越长所产生的误差越大,尤其是对于股票价格这类数据的预测,更无法长时间较准地预测,所以我们本次只进行短期的预测。
1、专家模型
以中信证券2014年8月11日至2014年12月12日每日收盘价作为数据源,利用Clementine软件对这些数据进行时间序列的专家建模。
在时间序列模块里选择专家模型。我们在模型的选择上选择“Expert Modeler”,然后在“Criteria”选项中选择“All models”。“确定”后“执行”,最后获得专家建模得到的模型。
最后从结果可以看出专家建模器选择的模型是ARIMA(1,1,0),所以接下来我们只进行指数平滑模型的建模。
2、指数平滑模型
在指数平滑建模中仍以中信证券2014年8月11日至2014年12月12日每日收盘价作为数据源,利用Clementine软件对这些数据进行时间序列的指数平滑建模。
在时间序列模块里选择指数平滑模型。我们在模型的选择上选择“Exponential Smoothing”,然后在“Criteria”选项中选择“Holts liner trend”。“确定”后“执行”,最后获得指数平滑模型。
3、模型的分析与比较
在模型模块的参数界面查看模型参数。本文选取了两个模型中部分较重要的参数汇总在表3-1中。
从表3-1中,尤其是Sig的值可以看出,专家建模的Sig值为0.312,而指数平滑建模的Sig值仅为0。然而,显著性值(也就是Sig的值)小于0.05时表示残差序列不是随机的,也就是说所观测的序列中存在着模型无法解释的某些结构。从这方面看来,指数平滑模型不能完整的解释该时间序列。
四、结论
(一)预测结果分析。从表格中可以看出,中信证券的股票的价格前期以较大的幅度进行增长,而后期以校幅度增长,但是从整体上来说,中信证券的股票价格呈上升趋势,股民可以放心购买。
(二)模型选择分析。首先,对于中国这种受经济政策、大盘走向等因素影响比较大的股市来说,研究股票的价格并不是所选用的数据越多越好,因为数据多就代表者时间跨度大,过长的时间跨度很难避免特殊因素的影响。所以,选择合适的数据源更利于我们更好地建模。
其次,对中信证券近半年的日收盘价进行建模所得出的最佳模型为ARIMA模型。
最后,需要说明的是,Clementine软件在数据挖掘方面有非常大的使用空间和发展前景,并可以很大程度上简化时间序列建模的过程。所以,在研究性学习的过程当中,充分使用适当的分析工具才能有效的提高工作的效率。(作者单位:河北经贸大学)
参考文献:
[1] 刘滢,数据挖掘在股票预测中的应用[D],长春理工大学,2010
[2] 李卫民,ARMA-广义回归神经网络技术在股票预测中的应用研究[D],山东科技大学,2004
[3] 王振兴,BP-RBF组合神经网络在股票预测中的应用研究[D],兰州商学院,2010
[4] 刘劲松,数据挖掘中的现代时间序列分析方法[J],信息技术,2007(7):100-101
[5] 彭英,基于灰色理论的数据挖掘在股票分析中的应用[D],长沙理工大学,2006
[6] 柳建芳,基于小波消噪的聚类模式挖掘在股票收益率预测中的应用[D],武汉理工大学,2010
[7] 张炜,基于遗传算法的属性约简方法在股票预测中的应用研究[D],湖南,2013
关键词:股票预测;时间序列法;ARIMA模型
一、Clementine软件的介绍
Clementine软件是一款适用于商业用户的高品质数据挖掘的产品。该软件具有丰富的数据挖掘方法,并且支持与数据库之间的模型和数据的交换。同时,该软件也具有可视化操作的界面,操作方法简单易学,结果分析直观易懂,同时它的图形功能也非常强大。
该软件将一系列的数据处理程序或者技术整合成彼此之间相互独立的模块,例如将决策树、时间序列、神经网络、聚类、回归、关联规则等多种数据挖掘技术集合在可视化图形的界面中,因此对于那些不懂编程但又经常需要进行大量数据处理的用户来说,它要比Excel更易用更高效,而且构建的数据流一经保存后可在下一个相似的任务中稍做修改就可使用。
本文主要采用时间序列数据挖掘模型进行操作。在时间序列模型中包含着专家模型、指数平滑模型和ARIMA模型3种建模方法。本文会对这三种方法依次进行建模,从而选出最优的建模方法,得出最准确预测。
二、国内外研究现状
刘滢(2010年)分别运用决策树分类法,时间序列法和神经网络对股票的价格的预测进行了实际的应用,分析了各个方法的弊端和长处。李卫民(2004年)使用ARMA-广义回归神经网络技术对股票价格的走势进行了预测,克服了单纯的ARMA模型的弊端。王振兴(2010年)建立了基于BP和RBF神经网络的神经网络模型和依据拟合误差确定权数的组合神经网络模型,并且进行了实证分析,最后表明组合神经网络模型在精度和稳定性上都要比单神经网络模型高,具有更为广阔的应用前景。张炜(2013年)认为粗糙集在解决股票预测等不确定性问题上具有独特的优势。
因此,对于股票各个方面的预测,学者们已经做了很多有价值的工作。同时也给我们提供了许多需要借鉴和学习的东西。但是由于股票市场的复杂不确定性就注定了之后的股票市场还有很多新的规律和规则等着我们去提取和挖掘。
三、Clementine实证研究
(一)数据来源。本文选取沪深300成分股中的热门股票中信证券(600030)股票2014年8月11日到2014年12月12日的收盘价,共收集到84个数据样本。通过对这84个数据的分析,来预测未来一个月内中信证券股票价格的大致走势。本文所有的数据均来自于新浪财经。
(二)数据的预处理。考虑到在建模过程中股票市场在双休日和节假日不开市的特殊性,我们收集到的数据在时间段上是不连续的,也就是说,在不开市的时间点上,数据是缺失的。所以为了方便利用模型来分析,我们通过利用最近点的平均值的填充办法,来使得数据(收盘价)在以天为时间的单位上能够具有连续性。
(三)模型的选择与建立。本文以中信证券2014年8月11日至2014年12月12日每日收盘价作为数据源,建立数据流。
因为对股票研究的目的在于能够在一定时间段内对股票价格进行较为准确地预测,所以在本次研究中,我们也要通过选择较为合适的模型,对中信证券每日的收盘价进行预测。因为预测的时间越长所产生的误差越大,尤其是对于股票价格这类数据的预测,更无法长时间较准地预测,所以我们本次只进行短期的预测。
1、专家模型
以中信证券2014年8月11日至2014年12月12日每日收盘价作为数据源,利用Clementine软件对这些数据进行时间序列的专家建模。
在时间序列模块里选择专家模型。我们在模型的选择上选择“Expert Modeler”,然后在“Criteria”选项中选择“All models”。“确定”后“执行”,最后获得专家建模得到的模型。
最后从结果可以看出专家建模器选择的模型是ARIMA(1,1,0),所以接下来我们只进行指数平滑模型的建模。
2、指数平滑模型
在指数平滑建模中仍以中信证券2014年8月11日至2014年12月12日每日收盘价作为数据源,利用Clementine软件对这些数据进行时间序列的指数平滑建模。
在时间序列模块里选择指数平滑模型。我们在模型的选择上选择“Exponential Smoothing”,然后在“Criteria”选项中选择“Holts liner trend”。“确定”后“执行”,最后获得指数平滑模型。
3、模型的分析与比较
在模型模块的参数界面查看模型参数。本文选取了两个模型中部分较重要的参数汇总在表3-1中。
从表3-1中,尤其是Sig的值可以看出,专家建模的Sig值为0.312,而指数平滑建模的Sig值仅为0。然而,显著性值(也就是Sig的值)小于0.05时表示残差序列不是随机的,也就是说所观测的序列中存在着模型无法解释的某些结构。从这方面看来,指数平滑模型不能完整的解释该时间序列。
四、结论
(一)预测结果分析。从表格中可以看出,中信证券的股票的价格前期以较大的幅度进行增长,而后期以校幅度增长,但是从整体上来说,中信证券的股票价格呈上升趋势,股民可以放心购买。
(二)模型选择分析。首先,对于中国这种受经济政策、大盘走向等因素影响比较大的股市来说,研究股票的价格并不是所选用的数据越多越好,因为数据多就代表者时间跨度大,过长的时间跨度很难避免特殊因素的影响。所以,选择合适的数据源更利于我们更好地建模。
其次,对中信证券近半年的日收盘价进行建模所得出的最佳模型为ARIMA模型。
最后,需要说明的是,Clementine软件在数据挖掘方面有非常大的使用空间和发展前景,并可以很大程度上简化时间序列建模的过程。所以,在研究性学习的过程当中,充分使用适当的分析工具才能有效的提高工作的效率。(作者单位:河北经贸大学)
参考文献:
[1] 刘滢,数据挖掘在股票预测中的应用[D],长春理工大学,2010
[2] 李卫民,ARMA-广义回归神经网络技术在股票预测中的应用研究[D],山东科技大学,2004
[3] 王振兴,BP-RBF组合神经网络在股票预测中的应用研究[D],兰州商学院,2010
[4] 刘劲松,数据挖掘中的现代时间序列分析方法[J],信息技术,2007(7):100-101
[5] 彭英,基于灰色理论的数据挖掘在股票分析中的应用[D],长沙理工大学,2006
[6] 柳建芳,基于小波消噪的聚类模式挖掘在股票收益率预测中的应用[D],武汉理工大学,2010
[7] 张炜,基于遗传算法的属性约简方法在股票预测中的应用研究[D],湖南,2013