论文部分内容阅读
关键词:股价涨跌;机器学习;实证研究;XGBoost
一、文献综述
与传统时间序列模型相比,机器学习模型对数据没有严格的假设条件,受到研究者的喜爱。王燕基于參数寻优后的XGBoost模型对中国平安等股票收盘价的短期预测在多个评价指标上较SVM模型和GBDT模型有更好的效果。王禹利用boosting级联多棵决策树算法预测仪器仪表领域的股票涨跌走势,结合股票的行情指标和技术指标,预测结果对比单一决策树的预测准确率有明显的提升。王亚红利用随机森林算法基于12个财务指标对随机选取的股票价格预测的准确率超过70%。何铮认为任何单一因素都难以完全解释股票价格水平和波动,通过结合基本面因素和技术面因素作为输入特征构建股价模型,可以获得较好的预测能力。
二、模型分析
(一)数据处理和指标选择
量化投资特征选取一般分成基本面指标和技术指标两大类。基本面指标主要由盈利因子、成长因子、流动性因子、估值因子和品质因子等组成。盈利因子技术指标主要有趋势因子、均线因子和交易因子。通过查阅相关文献最终在基本面指标和技术指标两大类指标中选取了12个基本面指标、25个技术指标。部分指标如表1所示。
将去除缺失值后的股票数据的所有特征进行标准化处理,以消除不同量纲带来的影响。
(二)模型理论概述
本文是对股票价格涨跌标签进行预测,所以选择监督学习里面的二分类学习算法。接下来对逻辑回归、决策树和XGBoost算法模型设置为二分类有关的内容。
1.机器学习算法理论
(1)逻辑回归。逻辑回归是一种主要用于分类的统计分析方法。通过引入sigmoid函数得到逻辑回归表达式:
将上式对数变换后,通过极大似然估计得到其损失函数:
(2)决策树。决策树通常只有一个根节点,是所有训练数据集合。测试实例中的某一属性,依据不同的测试结果进
(3)XGBoost。XGBoost是一种基于树模型的Boosting集成算法。其特点是逐一构建弱评估器,经过多次迭代逐渐累积多个弱评估器。XGBoost的目标函数构成如下所示:
2.模型评价标准
模型的评价标准是检验模型有效性的重要指标。混淆矩阵如表2所示:
准确率指所有的预测正确(包括正例负例)的所占比重。精准度指所有被预测为正例中实际为正例的概率。召回率指实际为正例且被预测为正例的概率。
(三)模型的预测与评价
实验一:使用个股2015年1月5日至2019年6月28日作为训练期,2019年7月1日至2019年12月10日为测试期。将未来第15天的收盘价减去当天的收盘价,若大于0,标签记为1;若小于0,标签记为0。A组以12个财务指标和25个技术指标作为输入特征,以股票收盘价的涨跌作为预测对象分别建立逻辑回归、决策树和XGBoost模型。以准确率、精准度和召回率作为模型的评价指标。为了形成对比,B组除了将输入特征改为25个纯技术指标,其他与A组类似。评价指标结果如表3所示。
实验二:c组以12个财务指标和25个技术指标作为输入特征,分别对另外四只A股收盘价的涨跌作为预测对象建立模型。D组除了将输入特征改为25个纯技术指标,其他与c组类似。评价指标结果如表4所示:
(四)模型结果分析
实验一中除逻辑回归模型以外,A组中决策树和XGBoost模型分别比B组中对应的模型的准确率降低了近3%。B组决策树模型的精准度比A组降低了近4%。A组中XGBoost模型召回率比B组提高了26%,通过分析实验一的结果说明了加入财务指标后模型的优良性。
为了验证输入特征以财务指标和技术指标相结合的有效性设计实验二,对比实验二中的c组和D组结果,四只股票的各个预测模型在D组中的准确率较c组都有一定的降低,除了股票1在决策树模型上有不明显的提高,但在逻辑回归和XGBoost模型上预测的准确率分别降低了约30%和20%。其他三只股票,在模型上的预测准确率均出现一定程度降低。进一步说明加入财务指标后的股票预测模型的有效性。
三、结论与建议
本文结合财务指标和技术指标,对股票价格涨跌建立一种短中期预测模型。从以上实验得出:第一,以财务指标和技术指标作为输入特征,模型的预测准确率均超过50%,体现了模型的可靠性和股票市场的可预测性;第二,剔除财务指标的模型的预测精度会发生明显的降低,进一步验证同时选取两类指标作为模型输入特征的有效性,为广大投资爱好者提高更有价值的参考。
一、文献综述
与传统时间序列模型相比,机器学习模型对数据没有严格的假设条件,受到研究者的喜爱。王燕基于參数寻优后的XGBoost模型对中国平安等股票收盘价的短期预测在多个评价指标上较SVM模型和GBDT模型有更好的效果。王禹利用boosting级联多棵决策树算法预测仪器仪表领域的股票涨跌走势,结合股票的行情指标和技术指标,预测结果对比单一决策树的预测准确率有明显的提升。王亚红利用随机森林算法基于12个财务指标对随机选取的股票价格预测的准确率超过70%。何铮认为任何单一因素都难以完全解释股票价格水平和波动,通过结合基本面因素和技术面因素作为输入特征构建股价模型,可以获得较好的预测能力。
二、模型分析
(一)数据处理和指标选择
量化投资特征选取一般分成基本面指标和技术指标两大类。基本面指标主要由盈利因子、成长因子、流动性因子、估值因子和品质因子等组成。盈利因子技术指标主要有趋势因子、均线因子和交易因子。通过查阅相关文献最终在基本面指标和技术指标两大类指标中选取了12个基本面指标、25个技术指标。部分指标如表1所示。
将去除缺失值后的股票数据的所有特征进行标准化处理,以消除不同量纲带来的影响。
(二)模型理论概述
本文是对股票价格涨跌标签进行预测,所以选择监督学习里面的二分类学习算法。接下来对逻辑回归、决策树和XGBoost算法模型设置为二分类有关的内容。
1.机器学习算法理论
(1)逻辑回归。逻辑回归是一种主要用于分类的统计分析方法。通过引入sigmoid函数得到逻辑回归表达式:
将上式对数变换后,通过极大似然估计得到其损失函数:
(2)决策树。决策树通常只有一个根节点,是所有训练数据集合。测试实例中的某一属性,依据不同的测试结果进
(3)XGBoost。XGBoost是一种基于树模型的Boosting集成算法。其特点是逐一构建弱评估器,经过多次迭代逐渐累积多个弱评估器。XGBoost的目标函数构成如下所示:
2.模型评价标准
模型的评价标准是检验模型有效性的重要指标。混淆矩阵如表2所示:
准确率指所有的预测正确(包括正例负例)的所占比重。精准度指所有被预测为正例中实际为正例的概率。召回率指实际为正例且被预测为正例的概率。
(三)模型的预测与评价
实验一:使用个股2015年1月5日至2019年6月28日作为训练期,2019年7月1日至2019年12月10日为测试期。将未来第15天的收盘价减去当天的收盘价,若大于0,标签记为1;若小于0,标签记为0。A组以12个财务指标和25个技术指标作为输入特征,以股票收盘价的涨跌作为预测对象分别建立逻辑回归、决策树和XGBoost模型。以准确率、精准度和召回率作为模型的评价指标。为了形成对比,B组除了将输入特征改为25个纯技术指标,其他与A组类似。评价指标结果如表3所示。
实验二:c组以12个财务指标和25个技术指标作为输入特征,分别对另外四只A股收盘价的涨跌作为预测对象建立模型。D组除了将输入特征改为25个纯技术指标,其他与c组类似。评价指标结果如表4所示:
(四)模型结果分析
实验一中除逻辑回归模型以外,A组中决策树和XGBoost模型分别比B组中对应的模型的准确率降低了近3%。B组决策树模型的精准度比A组降低了近4%。A组中XGBoost模型召回率比B组提高了26%,通过分析实验一的结果说明了加入财务指标后模型的优良性。
为了验证输入特征以财务指标和技术指标相结合的有效性设计实验二,对比实验二中的c组和D组结果,四只股票的各个预测模型在D组中的准确率较c组都有一定的降低,除了股票1在决策树模型上有不明显的提高,但在逻辑回归和XGBoost模型上预测的准确率分别降低了约30%和20%。其他三只股票,在模型上的预测准确率均出现一定程度降低。进一步说明加入财务指标后的股票预测模型的有效性。
三、结论与建议
本文结合财务指标和技术指标,对股票价格涨跌建立一种短中期预测模型。从以上实验得出:第一,以财务指标和技术指标作为输入特征,模型的预测准确率均超过50%,体现了模型的可靠性和股票市场的可预测性;第二,剔除财务指标的模型的预测精度会发生明显的降低,进一步验证同时选取两类指标作为模型输入特征的有效性,为广大投资爱好者提高更有价值的参考。