论文部分内容阅读
随着我国经济的发展,金融市场在其中发挥着越来越重要的辅助作用。金融市场本身的发展决定了其为实体经济服务的效率,市场定价越准,越能更有效得为实体经济服务。然而我国的金融市场的效率并不高,依然有很大的发展空间。金融理论中一直存在有效市场假说,认为在一个有众多参与者竞争的市场中,市场是有效的,竞争会消除超额收益,也就是说在一个充分竞争的市场中,是无法对其走势进行预测的。众多实证也支持这一结论。然而,在市场微观结构的研究中表明,即使是在一个从长周期来看有效的市场中,也有可能存在短周期内的无效的情况。因此,如何建立有效的数理统计模型以捕捉这些可能存在的无效情况成为了金融理论中的研究热点。本文首先采用随机游动检验(Random Walk Test)验证我国股票市场和期货市场的无效程度,数据的范围为2014年至2019年,频率分别为分钟数据和天数据。经实证分析后发现,目前我国这两个市场的金融标的的价格序列都存在着大量的无效性,在分钟频率上,我国股票市场的无效程度要高于期货市场,在日频率上,二者的差异不大,并在两个市场的无效性没有随着年份的增加而减弱,这为之后的量化分析提供了基础。完成了市场无效性的检验之后,本文根据数据量的大小,我们提出了基于自相关系数的自适应高斯混合隐马尔科夫模型(ACMGHMM)对盘口高频数据进行建模,以尝试对市场无效性进行捕捉。首先采用混合高斯分布下的隐马尔可夫模型(Hidden Markov Model under Mixed Gaussian Distribution,HMM-MGD)对数据收益率进行建模。在特征序列的处理上,基于金融市场微观结构理论,提出了一种衡量市场参与者交易意向(Trading Intention)的特征构造方法。针对金融时间序列的特点,提出了 一种新的基于自相关系数的调整预测方法(Autocorrelation Coefficient Adjusted Prediction,ACAP),以减少预测结果的高波动性。对2019年10月18日—2019年11月1日我国期货市场的活跃交易品种tick数据进行测试,通过使用经调整后的平均相对百分比误差(Adjusted Mean Relative Percentage Error,AMRPE)以及经调整后的相对误差的方差(Variance of Adjusted Relative Percentage Error,VARPE)对预测误差的准确度和波动性进行衡量,将ACMGHMM模型分别与HMM模型和HMM-RF模型进行比较,发现ACMGHMM模型相较于HMM与HMM-RF而言,AMRPE分别降低了 30.4%与 15.4%,VARPE 分别降低了 65.2%与 52.3%,说明 ACMGHMM模型能够大幅降低预测的波动性,以及提高预测的准确度。之后对该模型的策略有效性进行假设检验,发现ACMGHMM模型的表现受到了样本量小的限制,表现得不是特别稳定,大部分测试得到的回测收益率是显著大于0的,但依然有一小部分无法通过该检验。对于数据量可扩充的情况下,我们提出了迁移学习下的自适应最小预测间隔LSTM模型(TDMI-LSTM)以对高频盘口数据进行建模。LSTM需要大量的训练样本才能发挥其优势,在对金融时间序列进行建模时会遇到困难,表现在:金融时间序列存在异方差的特点,从而数据分布差异较大,无法保证训练数据的质量;高频tick数据会存在大量无效样本,会剧烈降低训练样本的质量;随着预测间隔的延长,数据之间的依赖关系显著降低,因不能随意延长预测间隔以提高训练样本中的有效样本数。由于以上问题,LSTM无法直接端对端的对于金融时间序列进行建模,针对以上难点,本文提出了相应的解决办法和算法。针对后两个问题,提出了基于随机游动的最小预测间隔的算法(Minimum Prediction Interval Algorithm,MPI),以确定对于训练集最合适的预测间隔,增大样本中有效样本所占比例,并缩短计算时间。对于第一个问题,使用HMM-MGD模型对低频率下的各品种数据进行建模,之后采用JS散度(Jensen-Shannon Divergence)衡量各品种隐藏状态分布的相似性,由于混合高斯分布的JS散度不存在闭式解,本文采用蒙特卡洛(Monte Carlo)方法采样计算JS散度,之后对JS散度进行聚类处理,进而对高频数据进行分类。在预测的时候,对于每一个样本外测试数据,首先使用已获得的HMM-MGD模型进行解码分类,再将其输入到对应的LSTM模型中进行预测。之后通过对2019年10月18日—2020年1月20日我国期货市场的活跃交易品种tick数据进行测试,数据总量在四千万条左右,将TDMI-LSTM模型分别与LSTM模型、LSTM-SC模型、CNN-LSTM模型进行比较,发现 TDMI-LSTM 模型的 AMRPE 分别降低了 52.4%、46.3%、51.4%,VARPE分别降低了 33.8%、38.8%、43.1%,说明TDMI-LSTM模型能够大幅提高预测准确度,并降低预测的波动性。之后对该模型的策略有效性进行假设检验,发现经TDMI-LSTM模型能稳定得抓住金融时间序列数据的特征,对测试结果进行假设检验,所有的测试的回测收益率都是显著大于0的。