论文部分内容阅读
伴随着计算机技术的迅速发展,量化投资在神州大地上方兴未艾。一般意义上的量化投资包含量化选股和择时、资产配置和算法交易等方面。相较于以基本面分析和技术分析为代表的传统选股方法,量化选股相对更加客观,具有不易受主观情绪影响的优点。以集成学习方法为代表的机器学习方法也在资本市场上得到了有效应用。微观层面,将前沿的机器学习算法应用于证券投资,构建能有效提高投资效率、提升投资收益率的选股模型,研究对模型贡献度较大的具体因子,在理论和实务两方面都具有较大的研究意义。宏观层面,对量化选股方法的深入研究,有助于拓宽投资者投资渠道、提高资本市场定价机制和完善资本市场机制建设。XGBoost模型和LightGBM模型均属于集成学习模型,在解决分类问题时具有效率快、准确率高和分类过程易可视化等优点。本文从分类问题的视角看待选股问题,并对XGBoost模型和LightGBM模型的选股能力进行了系统性研究。首先通过网格搜索法确定最优参数,并对确定的参数进行参数优化;然后通过年度和月度滚动测试对XGBoost模型和LightGBM模型的模型有效性、决策树结构和因子重要性进行对比分析;之后利用行业中性选股策略对XGBoost模型和LightGBM模型在量化选股领域的有效性进行深度探究;最后在行业中性选股的框架下进行包括LightGBM、XGBoost、GBDT、Ada Boost和随机森林等5种不同的集成学习模型的单因子测试,比较5种模型的时间和准确率两方面的差异。本文利用从2008年1月31日至2019年7月31日的所有A股股票共10个大类423个因子的月频数据和相应的月收益率数据进行建模分析,研究发现:(1)XGBoost和LightGBM分类模型具备不错的预测能力,且LightGBM分类模型预测能力强于XGBoost;(2)XGBoost和LightGBM分类模型具有较多参数,但只有较少参数能显著提高模型分类能力,其他参数可设置为默认值。(3)LightGBM、XGBoost、GBDT、Ada Boost和随机森林等集成学习模型均具有较好的选股能力,LightGBM和XGBoost的选股能力优于其他集成学习模型。(4)LightGBM和XGBoost分类模型应用于量化选股时运行速度快于GBDT、Ada Boost和随机森林等其他集成学习模型,且LightGBM模型的运行速度快于XGBoost。(5)Mkt Value(市值)、GREC(分析师推荐评级变化趋势)因子和DAREC(分析师推荐评级变化)等因子对股价收益率具有较大影响。2017年之前市场上重要性最大的因子是Mkt Value,其重要性在之后月度下降迅速。