论文部分内容阅读
量化投资的核心在于模型对资产价格的把握,如若能够对标的价格或上涨下降的概率实现较为精准地预测,则很容易为投资者赚取超额收益。因此不管是投资者还是学者们,对于股票或指数价格预测相关研究的热情从来有增无减。现有的股票或指数预测建模方法可以概括技术分析法,计量模型法和机器学习(深度学习)法三类。技术分析法比较直观、可操作性强,但其在实效性和准确性方面都存在着一定的缺陷。传统的计量经济学模型往往对数据分布有着严格的假定,而金融时间序列的噪音往往比较大,导致单纯的计量经济学模型在股票或指数价格预测上的效果始终无法进一步突破。而人工智能模型包括传统机器学习和深度学习模型往往基于非线性的原理构建,对数据的分布没有严格的限制,其适用性高、泛化能力也更强。其中,循环神经网络模型——长短期神经网络模型(LSTM)是目前最著名的时间序列深度学习前沿模型之一,LSTM的网络结构在设计上相较于一般的神经网络更加精巧复杂,能更好地缓解梯度消失的问题。目前,LSTM网络备受学者们青睐,也已经在经济和金融数据预测与建模领域取得了重大进展。2005年问世的沪深300指数素来有股票市场“晴雨表”之称,其成份股票剔除了停牌、ST、具有异常商业状况或严重财务损失股票以及股价大幅波动且市场表现有明显操纵痕迹的股票。总的来说,沪深300指数反映的是具有较高流动性和较大规模的代表性股票的总体价格变化,因此对沪深300指数的准确把握可以为我们的投资者们提供可靠的投资方向。在本文的研究中,我们以沪深300指数收益率为研究对象,从建立传统的计量经济学模型开始,然后建立深度学习循环神经网络模型,最后建立计量经济学和深度学习的混合预测模型,并基于最优模型构建择时策略。在建立传统计量模型的过程中,首先我们对指数的波动性基本特征以及平稳性、异方差做了分析,对建模的条件进行判断,然后对指数建立了GARCH和EGARCH模型,成功估计出模型的参数。在GARCH和EGARCH模型的估计基础上,我们融合现代数据挖掘技术——循环神经网络模型,以新的混合模型对沪深300指数的收益率进行预测,以突破传统计量模型的局限、提升神经网络的预测精度。本文的主要循环神经网络模型以长短期记忆网络LSTM为主,为了突出LSTM在缓解梯度消失问题上的优势,我们同步增加RNN模型进行效果对比。在混合模型的基础上,我们进一步探索了对沪深300指数走势可能产生影响的其他影响因素,最终选取了涵盖指数技术面、海外金融市场、期货与现货基差以及宏观经济四个大类的36个细分因子,并将这些因子分成技术指标因子和基本面因子两批,分批次将因子投入混合模型参与训练,分别得到基于技术因子、基本面因子以及技术面加基本面全量因子的混合模型。最后,我们根据单个神经网络模型、计量经济学和神经网络混合模型以及加入了多因子混合模型在验证集合上的表现,选出了拟合效果最优的多因子混合模型——全量因子GARCH-LSTM模型。从计量经济学模型和神经网络的结合效果来看,与GARCH或是EGARCH结合对结果的影响并不十分显著。从循环神经网络预测效果来看,随着和计量经济学模型的结合以及各类因子的加入,LSTM类模型的预测的误差逐渐下降,而RNN类模型的误差反而呈现出上升的趋势。随着输入的特征因子纬度越高,模型的复杂度也会越高,LSTM模型的训练优势便体现了出来。综合各模型在各个指标上的表现,我们可以看到全量因子GARCH-LSTM在各个方面的表现最为突出。为了一进步验证多因子混合模型在实际市场中的预测情况,我们在最终的预测集合上基于拟合效果最优的多因子混合模型构建了量化择时策略。我们将预测集合的数据投入训练好的全量多因子GARCH-LSTM模型,得到测试集合上每一个训练交易日的下一日预测收益率,并将该预测收益率作为择时的信号,构建多头、空头、多空三个策略组合。最后我们以年化收益率、年化波动率以及最大回撤等指标对回测结果进行评估。在整个回测期间内,策略最终实现了54.11%的累计收益率,对比沪深300指数的超额收益达到了8.82%;年化收益率为9.22%,超出沪深300指数的年化收益率7.91%。从风险角度来说,多空组合的最大回撤为15.85%,而沪深300指数达到了30.23%,在风险上的表现对比指数显示出了一定优越性。