论文部分内容阅读
近年来,随着计算机硬件计算能力的显著提高以及人工智能的飞速发展,量化投资开始在中国金融市场崭露头角。借助于大数据的发展趋势,机器学习逐渐在量化投资领域展现出优势。在众多量化投资策略中,多因子选股策略凭借其稳定性高和覆盖广的优势成为量化投资领域的热点问题之一。同时,神经网络模型强大的非线性拟合能力提升了机器学习领域各种类型任务的性能,本文主要研究基于自注意力神经网络模型的多因子量化选股策略的构建。本文借助Tushare Pro金融大数据平台和聚宽量化交易平台,选取2009年10月至2018年10月沪深300各成分股相关日度数据作为研究对象。为充分考虑影响股票价格波动的各方面因素,本文首先选取了行情类因子、财务类因子、技术类因子和投资者情绪类因子四个类别共117个因子构建初始因子池。为保证数据的利用质量,本文对数据进行了滞后性、缺失值和标准化相关预处理。同时,借鉴机器学习领域模型集成的思想,本文综合计算Pearson相关系数、距离相关系数、基于AIC准则的Elastic Net、基于BIC准则的Elastic Net、随机森林和GBDT共六个模型对于各个因子重要性的评分,筛选出68个因子用于选股模型的构建。最后,本文使用基于自注意力机制的神经网络模型,每次利用过去60个交易日的因子数据,对沪深300各成分股未来一个月的价格变动趋势进行预测,每次按上涨概率大小选取出前50只股票按等权重的资金分配方式构建投资组合,以月为周期进行投资组合的更新。为保证模型的泛化能力,本文使用了2正则化、随机失活和层标准化的正则化方法。本文构建的基于自注意力神经网络模型的多因子选股策略在2015年2月至2018年10月整个回测期的表现明显优于沪深300指数,相较于沪深300指数1.69%的年化亏损,该策略取得了27.02%的年化收益,且最大回撤为-22.10%,风险相对市场较小,明显低于沪深300指数-46.70%的最大回撤。综合夏普比率、信息比率等评估指标,该策略在实现高收益率的同时对风险进行了有效的控制。同时本文建议在此策略的基础上引入沪深300股指期货,消除系统性风险,以获得更加稳定的超额收益。当将整个回测期划分为不同趋势阶段对本文所构建的策略进行评测时,该策略在上涨趋势和震荡趋势阶段能够对各成分股价格变动趋势进行较为精准的预测,1分数分别达到0.89和0.91,分别取得了较沪深300指数更高的61.59%和59.88%的累计收益率,且交易风险均较沪深300指数更低,分别将最大回撤控制在-7.01%和-6.99%。在下跌趋势阶段,相较于沪深300指数43.13%的累计亏损,该策略将累计亏损控制在12.73%。综合夏普比率、信息比率等评估指标,该策略在不同趋势阶段均保证了收益和风险的相对平衡。