论文部分内容阅读
股票市场是一个受众多因素影响的复杂系统,能在一定程度上反映着经济的繁荣与衰退。股票市场变动趋势的预测分析是金融、管理和统计学领域的研究热点问题之一,针对来自于股票市场的数据特点,研究者提出了各具特色的预测模型,从传统时间序列预测方法到如今的各种深度学习算法,越来越多的研究者投入到股票市场变动趋势的研究中。股票市场上股价变动趋势的预测在宏观和微观方面都具有重要的现实意义,宏观方面,对股票市场变动趋势的预测和把控是政府相关部门制定市场干预政策的重要参考,微观方面,对股价变动的准确预测既有利于投资人对投资策略的优化,也有利于公司内部经营状况预警。为了进一步提升股价变动的预测精度,本文借鉴TEI@I方法论的核心思想,构建了一种股价中长期变动预测模型MLT-TEI@I(Medium-Long Term Prediction Model on TEI@I:MLT-TEI@I)。由于TEI@I方法论在复杂系统预测方面具有良好效果,而深度学习算法相较于传统机器学习算法在数据集的非线性特征提取上更有优势,因此,本文借鉴TEI@I方法论先分解后集成的思想,将深度学习算法融入到该方法论中。具体来说,首先使用线性回归模型分解出自变量与预测变量之间的线性关系;接着使用深度森林算法对线性预测残差(即自变量与因变量之间的线性关系不能解释的部分)进行拟合;同时为了更好地拟合自变量与因变量之间的非线性关系,使用深度森林算法直接对数据集因变量进行预测;最后结合不同行业指数使用ANN算法将上述预测结果进行非线性融合,得到最终的预测结果。MLT-TEI@I预测模型以股票的次年涨跌值为响应变量,以影响股价变动的行情因子、财务因子、宏观经济因子等相关指标为解释变量,利用股票当年度的相关因子来预测股票下一年的涨跌趋势。考虑到不同行业的股票具有不同的变动特征,并结合实际数据可获取情况,本文选择了数据量相对较大的软件服务、化工原料、专用机械、元器件及电气设备共5个不同行业的股票数据进行建模分析,对股价的次年涨跌大小进行预测,不仅分析了PCA降维对股价预测效果的影响,还对比了本文模型与深度森林、随机森林、XGBoost和ANN这四种常见算法在预测效果上的差异以说明本文模型的有效性。为了验证MLT-TEI@I模型在不同数据集上预测结果的相对准确性与稳定性,本文不仅将模型分别应用于各行业数据集,同时也应用于5个行业的合并数据集上对比模型预测效果,并通过多次划分训练集与测试集从而进行多次实验来对比模型预测结果。本文在建模过程中考虑到所选择的部分指标之间存在较强的线性相关性,容易导致模型的过学习,因此在建模前使用PCA对指标进行了降维处理。在对模型预测结果进行评价时,本文选择了回归模型中最常用的RMSE来衡量模型预测精度。从实证结果上来看,降维可以有效提升模型在测试集上的预测效果,大大减轻模型在训练集上的过学习情况,降维前MLT-TEI@I模型在6个数据集上的平均RMSE为12.37,降维后的平均RMSE为7.77,降维后预测精度(RMSE)提升了37.20%。在实证研究过程中,本文还使用了贝叶斯优化方法来对部分重要参数进行优化,结果表明,贝叶斯优化方法在一定程度上提升了深度森林的预测效果,但在部分数据集上提升效果有限。从方法对比上来看,MLT-TEI@I模型的预测准确性优于其它算法,具体来说,MLTTEI@I模型在6个测试集上预测结果的RMSE较深度森林模型平均提升了6.52%,较随机森林、XGBoost、ANN分别提升了21.13%、15.92%、49.18%,且在不同行业的数据集上有不同的提升效果,这表明,本文构建的MLT-TEI@I模型较深度森林、随机森林、XGBoost和ANN这四种常见算法的预测精度更高,预测稳定性更强。此外,MLT-TEI@I模型在分行业预测时的精度比不分行业预测的精度更高,这说明不同行业数据集之间的差异会影响到模型的拟合效果。为了进一步验证本文所构建的MLT-TEI@I模型在中长期股价变动预测上相较于其它算法的优势,本文对数据集进行多次划分训练集与测试集并多次构建模型,计算不同划分下上述模型预测的准确性与结果的稳定性,以降低随机划分对实验结果的影响。从多次实验结果来看,无论是分行业的数据集还是行业混合数据集,MLT-TEI@I模型相较于其它算法均表现出了更高的预测精度与更强的预测稳定性。论文的结构如下:第一章是本文的绪论部分,主要介绍了文章的研究背景、目的及方法;第二章总结了股价变动趋势预测的研究现状,主要介绍了机器学习方法在股价预测中的发展;接着第三章对MLT-TEI@I模型中所涉及的主要算法进行了简要介绍,包括TEI@I方法论、深度森林等算法的主要思想;第四章是本文的实证部分,也是本文最核心的部分,详细介绍了从数据获取、数据预处理、描述性统计分析到MLT-TEI@I模型构建的过程;最后对全文进行了总结与展望。