论文部分内容阅读
人工智能是当下非常热门的话题,而机器学习正是人工智能的本质和方法论。随着国内量化投资技术的不断发展和成熟,传统量化投资方法获取超额收益的难度越来越高。为了解决这一问题,越来越多的研究者和从业者开始挖掘新的方法以实现更为稳健的超额收益。人工智能作为一种全新的数据分析和预测工具,对量化投资领域高维度、序列式的数据具有优秀的处理能力。因此,量化投资成为了人工智能赋能金融行业的重要领域之一。机器学习方法在量化投资领域的应用价值有多大,是否能够提供优于传统方法的绩效表现,成为了该领域研究者关注的重要课题。更进一步,如果机器学习方法确实优于传统方法,那么在众多机器学习方法中,哪种方法对股票市场的数据有更好的分析和预测能力就成为了一个很有理论价值和实践意义的研究课题。在此背景下,本文采用实证研究的方法,将传统线性回归方法、传统线性机器学习方法、传统非线性机器学习方法,深度机器学习方法进行横向对比,试图找到能构建出最优投资组合的方法。另外,本文还将机器学习的应用从多因子模型构建延伸到单类别因子生成领域,研究机器学习的方法能否优化单个类别因子的生成过程,从而构建更为有效的单类因子。数据准备上,本文将2010-2019年A股日度数据作为基础数据集,以Barra模型为框架,构建了9类26个因子作为机器学习训练的输入因子,并组建多因子模型。研究方法上,对各种因子和模型都使用统一的研究方法,即“滚动训练模型性—投建投资组合-回测收益表现”的方法进行评价。出于平衡训练效果和运算负载考虑,本文在模型训练时,使用每日数据作为截面,单次训练时间跨度为12个月,构建投资组合的调仓周期为1个月,具体方法如下:本文将12个月的数据作为一次机器学习训练的总数据集,来训练机器学习模型。在模型训练完成之后,用第12个月的因子数据值作为输入变量,使用机器学习模型对本月的收益进行预测。基于收益预测对股票进行排序并构建多空投资组合(做多预期收益为正股票,做空收益为负的股票,多头头寸和空头头寸等市值),随后持有该组合一个月,得到本月的真实投资收益。接下来将时间向后推移1个月,重复以上步骤,得到下一个月投资组合的真实收益。以此类推,将此方法持续滚动下去,直至数据的最后一期。为了保证结论具有更好的实践指导意义,本文在构建投资组合时使用了和中国股票市场接近的0.2%单边交易成本;同时为了能够完整的体现出模型对股票优劣的区分能力,本文将使用样本中所有股票构建多空策略投资组合。在实证研究中,本文首先对用于训练的9大类因子进行相关性分析,确定因子间的相关性较低;同时,通过构建投资组合并用历史数据回测的方法对这些因子的有效性进行较为详细的检验,保证各类因子的取值和股票收益间有较好的相关性,即因子是有效的。通过以上检验,能够保证训练模型时输入变量的质量较高,杜绝在机器学习中“Rubbish In Rubbish Out”现象的发生。为了保证文中实证研究的全面性,本文使用了线性机器学习、非线性机器学习、深度神经网络三类的机器学习方法。这些方法包括Lasso回归、岭回归、支持向量机、深度接神经网络、长短记忆神经网络,整体上已经涵盖主流机器学习方法的所有类别。其中后两种方法是以人工神经网络为基础的深度学习方法,它们比传统机器学习方法更为复杂,更具优势。将此类方法加入对比,能够使结论具有更好的前瞻性和更高的实践价值。实证研究结果显示,对于构建多因子模型,非线性方法的表现优于传统线性方法;以支持向量机、全连接神经网络、长短记忆神经网络为代表的非线性机器学习方法的表现优于所有线性方法--传统线性回归、Lasso回归、岭回归。在3种非线性机器学习方法中,模仿人类神经网络的2种深度学习方法--全连接神经网络、长短记忆神经网络方法表现优于传统机器学习方法--支持向量机;在两种深度学习方法中,带有“记忆功能”的长短记忆神经网络表现最优,优于包括全连接神经网络在内的所有其他方法。