论文部分内容阅读
随着股市的不断发展,人们逐渐将投资股票作为理财的重要方法之一。如何合理选择具有投资潜力且风险较低的优质股票成为投资者需要解决的重要问题。为了实现投资效用最大化,本文结合股票长期内在价值变化和短期价格波动分析,进行基于机器学习方法及深度学习方法的两阶段选股研究。
两阶段选股模型包括了通过对未来股票分类构建长期价值型优质股票池和针对股票池中每只股票进行短期股价预测并进行再次筛选两个阶段。第一阶段,本文提出了一种新的加权混合抽样集成算法(WHSBoost算法),解决了价值型股票分类过程中数据不平衡带来的问题,建立价值型股票分类预测模型,得到长期价值型优质股票池。价值型股票分类模型以盈利能力、偿债能力、经营能力、发展能力、现金流能力和每股指标的45个财务指标作为特征,以每股收益为股票分类标签。通过对比在支持向量机(SVM)、决策树(DT)和朴素贝叶斯(NB)等3个基分类基础上SMOTE算法、SMOTEBoost算法、RUSBoost算法、HSBoost算法和WHSBoost算法的分类效果,选择WHSBoost-DT模型作为价值型股票分类模型,模型准确率为86.8%,AUC值为0.927,明显高于其他方法。最终,根据2018年财务数据,通过WHSBoost-DT模型预测2019年价值型优质股票池,共387支股票。
在两阶段选股模型的第二阶段,本文首次提出了基于趋势注意力机制的LSTM模型(TALSTM模型),预测股票池中每支股票的未来价格。TALSTM模型特征由股票内生变量和外生变量构成,其中待预测股票的历史收盘价、开盘价、最高价、最低价为内生变量,股指收盘价、基于Copula函数的相关股收盘价为外生变量。TALSTM模型首先利用注意力机制对不同输入特征进行编码重构,然后利用基于股票趋势自适应函数的趋势注意力机制对不同时刻进行编码重构,最后利用LSTM作为解码器。通过对中国平安、万科A等股票的实证分析可知,TALSTM模型在不同股票、不同评价标准下都优于SVM、KNN等单时间序列预测模型和LSTM、Attention-LSTM等多时间序列预测模型。最终,利用TALSTM模型对股票池优质股进一步筛选,得到2019年4月11日涨幅排名前10的优质股,如格力电器。
本文提出的WHSBoost分类模型,将样本权重首次引入到数据抽样算法,从而改进了原有不平衡数据集成算法中加权重抽样过程,提高了集成算法对不平衡数据的分类效果。同时在TALSTM预测模型中,本文首次提出了针对金融时间序列的趋势注意力机制,并且对不同特征、不同时刻都进行编码重构。本文的两阶段选股研究,兼顾了投资者长线操作和短线操作的需求,具有一定的现实意义。
两阶段选股模型包括了通过对未来股票分类构建长期价值型优质股票池和针对股票池中每只股票进行短期股价预测并进行再次筛选两个阶段。第一阶段,本文提出了一种新的加权混合抽样集成算法(WHSBoost算法),解决了价值型股票分类过程中数据不平衡带来的问题,建立价值型股票分类预测模型,得到长期价值型优质股票池。价值型股票分类模型以盈利能力、偿债能力、经营能力、发展能力、现金流能力和每股指标的45个财务指标作为特征,以每股收益为股票分类标签。通过对比在支持向量机(SVM)、决策树(DT)和朴素贝叶斯(NB)等3个基分类基础上SMOTE算法、SMOTEBoost算法、RUSBoost算法、HSBoost算法和WHSBoost算法的分类效果,选择WHSBoost-DT模型作为价值型股票分类模型,模型准确率为86.8%,AUC值为0.927,明显高于其他方法。最终,根据2018年财务数据,通过WHSBoost-DT模型预测2019年价值型优质股票池,共387支股票。
在两阶段选股模型的第二阶段,本文首次提出了基于趋势注意力机制的LSTM模型(TALSTM模型),预测股票池中每支股票的未来价格。TALSTM模型特征由股票内生变量和外生变量构成,其中待预测股票的历史收盘价、开盘价、最高价、最低价为内生变量,股指收盘价、基于Copula函数的相关股收盘价为外生变量。TALSTM模型首先利用注意力机制对不同输入特征进行编码重构,然后利用基于股票趋势自适应函数的趋势注意力机制对不同时刻进行编码重构,最后利用LSTM作为解码器。通过对中国平安、万科A等股票的实证分析可知,TALSTM模型在不同股票、不同评价标准下都优于SVM、KNN等单时间序列预测模型和LSTM、Attention-LSTM等多时间序列预测模型。最终,利用TALSTM模型对股票池优质股进一步筛选,得到2019年4月11日涨幅排名前10的优质股,如格力电器。
本文提出的WHSBoost分类模型,将样本权重首次引入到数据抽样算法,从而改进了原有不平衡数据集成算法中加权重抽样过程,提高了集成算法对不平衡数据的分类效果。同时在TALSTM预测模型中,本文首次提出了针对金融时间序列的趋势注意力机制,并且对不同特征、不同时刻都进行编码重构。本文的两阶段选股研究,兼顾了投资者长线操作和短线操作的需求,具有一定的现实意义。