基于金融数据的机器学习模型构建与量化分析

来源 :山东大学 | 被引量 : 0次 | 上传用户:wangcong1001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国经济的发展,金融市场在其中发挥着越来越重要的辅助作用。金融市场本身的发展决定了其为实体经济服务的效率,市场定价越准,越能更有效得为实体经济服务。然而我国的金融市场的效率并不高,依然有很大的发展空间。金融理论中一直存在有效市场假说,认为在一个有众多参与者竞争的市场中,市场是有效的,竞争会消除超额收益,也就是说在一个充分竞争的市场中,是无法对其走势进行预测的。众多实证也支持这一结论。然而,在市场微观结构的研究中表明,即使是在一个从长周期来看有效的市场中,也有可能存在短周期内的无效的情况。因此,如何建立有效的数理统计模型以捕捉这些可能存在的无效情况成为了金融理论中的研究热点。本文首先采用随机游动检验(Random Walk Test)验证我国股票市场和期货市场的无效程度,数据的范围为2014年至2019年,频率分别为分钟数据和天数据。经实证分析后发现,目前我国这两个市场的金融标的的价格序列都存在着大量的无效性,在分钟频率上,我国股票市场的无效程度要高于期货市场,在日频率上,二者的差异不大,并在两个市场的无效性没有随着年份的增加而减弱,这为之后的量化分析提供了基础。完成了市场无效性的检验之后,本文根据数据量的大小,我们提出了基于自相关系数的自适应高斯混合隐马尔科夫模型(ACMGHMM)对盘口高频数据进行建模,以尝试对市场无效性进行捕捉。首先采用混合高斯分布下的隐马尔可夫模型(Hidden Markov Model under Mixed Gaussian Distribution,HMM-MGD)对数据收益率进行建模。在特征序列的处理上,基于金融市场微观结构理论,提出了一种衡量市场参与者交易意向(Trading Intention)的特征构造方法。针对金融时间序列的特点,提出了 一种新的基于自相关系数的调整预测方法(Autocorrelation Coefficient Adjusted Prediction,ACAP),以减少预测结果的高波动性。对2019年10月18日—2019年11月1日我国期货市场的活跃交易品种tick数据进行测试,通过使用经调整后的平均相对百分比误差(Adjusted Mean Relative Percentage Error,AMRPE)以及经调整后的相对误差的方差(Variance of Adjusted Relative Percentage Error,VARPE)对预测误差的准确度和波动性进行衡量,将ACMGHMM模型分别与HMM模型和HMM-RF模型进行比较,发现ACMGHMM模型相较于HMM与HMM-RF而言,AMRPE分别降低了 30.4%与 15.4%,VARPE 分别降低了 65.2%与 52.3%,说明 ACMGHMM模型能够大幅降低预测的波动性,以及提高预测的准确度。之后对该模型的策略有效性进行假设检验,发现ACMGHMM模型的表现受到了样本量小的限制,表现得不是特别稳定,大部分测试得到的回测收益率是显著大于0的,但依然有一小部分无法通过该检验。对于数据量可扩充的情况下,我们提出了迁移学习下的自适应最小预测间隔LSTM模型(TDMI-LSTM)以对高频盘口数据进行建模。LSTM需要大量的训练样本才能发挥其优势,在对金融时间序列进行建模时会遇到困难,表现在:金融时间序列存在异方差的特点,从而数据分布差异较大,无法保证训练数据的质量;高频tick数据会存在大量无效样本,会剧烈降低训练样本的质量;随着预测间隔的延长,数据之间的依赖关系显著降低,因不能随意延长预测间隔以提高训练样本中的有效样本数。由于以上问题,LSTM无法直接端对端的对于金融时间序列进行建模,针对以上难点,本文提出了相应的解决办法和算法。针对后两个问题,提出了基于随机游动的最小预测间隔的算法(Minimum Prediction Interval Algorithm,MPI),以确定对于训练集最合适的预测间隔,增大样本中有效样本所占比例,并缩短计算时间。对于第一个问题,使用HMM-MGD模型对低频率下的各品种数据进行建模,之后采用JS散度(Jensen-Shannon Divergence)衡量各品种隐藏状态分布的相似性,由于混合高斯分布的JS散度不存在闭式解,本文采用蒙特卡洛(Monte Carlo)方法采样计算JS散度,之后对JS散度进行聚类处理,进而对高频数据进行分类。在预测的时候,对于每一个样本外测试数据,首先使用已获得的HMM-MGD模型进行解码分类,再将其输入到对应的LSTM模型中进行预测。之后通过对2019年10月18日—2020年1月20日我国期货市场的活跃交易品种tick数据进行测试,数据总量在四千万条左右,将TDMI-LSTM模型分别与LSTM模型、LSTM-SC模型、CNN-LSTM模型进行比较,发现 TDMI-LSTM 模型的 AMRPE 分别降低了 52.4%、46.3%、51.4%,VARPE分别降低了 33.8%、38.8%、43.1%,说明TDMI-LSTM模型能够大幅提高预测准确度,并降低预测的波动性。之后对该模型的策略有效性进行假设检验,发现经TDMI-LSTM模型能稳定得抓住金融时间序列数据的特征,对测试结果进行假设检验,所有的测试的回测收益率都是显著大于0的。
其他文献
优秀上市公司的共性是拥有两类优质资产:一是将员工变为资产,二是将客户变为资产。拥有这两类优质资产的企业,才能让公司的市值增长和增值服务成为利润的主要来源。2015年7月1
本文简述了课外阅读的意义,介绍了小学生课外阅读的现状,分析了学校图书馆指导学生有选择地阅读的意义及内容:阅读国情图书,激发爱祖国、爱家乡热情;革命理想、革命传统教育方面的
'定金'与'订金'虽一字之差,但在法律上意义却是截然不同。邓某某打算购买一套二手房,在支付了2万元定金后,却没能按约定支付首付款20万元。房主黄某某夫妇催
期刊
联合国环境规划署(环境署)2010年7月14日发布了全球红树林最新环境评估报告。报告指出,全球红树林的生存正面临严重威胁。自上世纪80年代以来,全球红树林面积已缩减了至少五分
以鸡胸肉为实验材料,以腌制吸收率、蒸煮损失、压榨损失,盐溶性蛋白质的溶出量为评定指标,探讨了不同滚揉腌制条件对鸡肉的保水性及盐溶性蛋白质浸出量的影响。结果表明:在0~4℃环
城市地层中大直径软土顶管工程具有施工难度大、不确定因素复杂、社会影响广等特点,导致施工期间面临较高的经济技术风险。鉴于风险的客观性、发展性、普遍性,不能以单一的影
机体在有氧代谢过程中产生的高分子活性物质活性氧簇(Reactive Oxygen Species,ROS)和活性氮簇(Reactive Nitrogen Species,RNS),主要包括超氧阴离子(Superoxide Anion,O2-)
公司在激烈的市场竞争中由于外部原因和内部经营管理的问题,经常使公司陷入困境,当公司出现危机时,虽然可以采用资产重组等方法善后,但是会使股东和债权人的利益受到损害.本
农业土地利用变化主要表现为农业用地结构变化和产品结构变化。通过农业用地结构变动和农业产品结构变动角度,采用对数线性计量方法,分析农业土地利用的经济效益。结果表明:①农
ANSYS是当今世界上最为流行的大型通用有限元分析软件.文中以计算低频屏蔽微带线为例,给出了ANSYS在微带线特性分析中的应用方法,阐述了其计算原理和计算过程.计算结果表明该