支持向量机在中国A股市场量化策略应用研究

来源 :时代金融 | 被引量 : 0次 | 上传用户:emilygl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】如何将机器学习方法应用于金融投资领域,一直是学术界和金融界热门的研究话题。本文将机器学习中的支持向量机方法结合Fama-Fench三因子模型,构建了新的量化投资策略,并利用A股进行了实证分析。研究表明,将支持向量机结合传统的三因子模型可以构建更加有效的投资组合。
  【关键词】机器学习 量化投资 三因子模型
  一、引言
  作为人工智能领域主要的研究方向之一,机器学习无疑最受瞩目。尤其是近几年深度学习方法在语音识别、自然语言处理、自动驾驶等方面取得了巨大的成功,使得各行各业都将机器学习方法做为重点的研究方向。特别是在金融领域,以机器学习为主的人工智能已经在量化投资方面得到了广泛的应用。机器学习可以快速海量地进行分析、拟合、预测,人工智能与量化交易联系越来越紧密。如全球最大的对冲基金桥水联合(Bridge water Asspcoates)在2013年就建立了一个基于机器学习的量化投资团队,该团队设计交易算法,利用历史数据预测未来金融市场变化,以人工智能的方式进行投资组合调整。日本的人工智能量化投资公司Alpaca,建立了一个基于图像识别的机器学习技术平台Capitalico,通过该平台,用户可以利用数据库中找到外汇交易图表进行分析,这使得普通投资者也能知道成功的交易员是如何做出交易决策的,从他们的经验中学习并作出更准确的交易。然而在金融领域,已公开的有效的预测模型是基本不存在的,因为无论是机构投资者还是个人投资者一旦公开投资模型,也就意味着投资模型的失效。比如著名数学家西蒙斯1988年成立的文艺复兴公司,就完全依靠数学模型进行投资,公司旗下从事量化投资的大奖章基金回报率也远超过其他对冲基金,然而该公司却从不公开投资模型。虽然金融机构很少公开如何利用机器学习来指导投资的研究成果,但学术界对机器学习在金融投资中的应用的研究却在逐渐增加。
  支持向量机(support vector machines,SVM)是Vapnik 1995年提出的新的机器学习算法,该方法有很好的泛化能力,一种非常成功的机器学习方法,性能明显优于传统神经网络。在金融研究领域,支持向量机也是应用最广泛的机器学习模型。即使在国内,利用SVM方法的研究文献也不少。赛英(2013)利用支持向量机(SVM)方法对股指期货进行预测,并用遗传算法(GA)和粒子群算法(PSO)分别优化四种不同核函数的支持向量机,通过大量实验发现,采用粒子群算法優化的线性核函数支持向量机对股指期货具有最好的预测效果。黄同愿(2016)通过选择最优的径向基核函数,再利用网格寻参、遗传算法和粒子群算法对最佳核函数参数进行对比寻优,构建最有效的支持向量机模型,并对中国银行未来15日的开盘价格变化趋势进行预测,并认为用支持向量机来预测股票走势是可行的。程昌品(2012)提出了一种基于二进正交小波变换和ARIMA-SVM方法的非平稳时间序列预测方案。用高频数据构建自回归模型ARIMA进行预测,对低频信息则用SVM模型进行拟合;最后将各模型的预测结果进行叠加,并发现这种办法比单一预测模型更加有效。张贵生(2016)提出了一种新的SVM-GARCH预测模型,通过实验发现该模型在时间序列数据去除噪音、趋势判别以及预测的精确度等方面均优于传统的ARMA-GARCH模型。徐国祥(2011)在传统SVM方法的基础上,引入主成分分析方法和遗传算法,构建了新的PCA-GA-SVM模型。并利用该模型对沪深300指数和多只成分股进行了验证分析,并发现该模型对沪深300指数和大盘股每日走势有很好的预测精度。韩瑜(2016)结合时间序列提出了一种基于GARCH-SVM、AR-SVM的股票涨跌预测方法,结果表明,加入GARCH或AR等时间序列模型的初步预测结果可以提高SVM预测准确率。
  从国内的研究文献来看,大多数文献都是通过机器学习方法来优化传统的时间序列预测模型,很少去研究如何通过机器学习方法构建有效的量化投资策略。由此,本文将利用SVM算法,结合经典的Fama-Fench三因子模型,设计量化投资策略,探讨机器学习方法在金融投资领域应用的新思路。
  二、模型理论介绍
  (一)Fama&Fench三因子模型
  Sharpe(1964),Lintner(1965)和Mossin(1966)提出的资本资产定价模型(CAPM)是一个里程碑。在若干假定前提条件下,他们严谨地推导出了在均衡状态下任意证券的定价公式:
  式中,E(ri)是任意证券i的期望收益率,E(r0)是无风险利率,E(rm)是市场组合(market portfolio)的期望收益率。■。法马(Fama,1973)对CAPM进行了验证,发现组合的β值与其收益率之间的线性关系近似成立,但截距偏高,斜率偏低,说明β不能解释超额收益。之后,Fama&Fench(1992)详细地分析了那些引起CAPM异象的因子对证券横截面收益率的影响。结果发现,所有这些因子对截面收益率都有单独的解释力,但联合起来时,市值和账目价值比(BE/ME)两个因子在很大程度上吸收了估计比值(E/P)以及杠杆率的作用。基于此,Fama&Fench(1993)在构建多因子模型时,着重考虑规模市值(SMB)和账面价值比(HML)这两个因子。因此,三因子模型可以写为:
  (二)支持向量机
  支持向量机是一种二分类模型,也可以用于多分类,它的基本模型是定义在特征空间上的间隔最大的线性分类器,通过寻求结构化风险最小来提高分类器的泛华能力,实现经验风险和置信范围的最小化,最终可转化为一个凸二次规划的问题求解。支持向量机是90年代最成功的机器学习方法,它的基本思想是求解能够正确划分训练数据集并几何间隔最大的分离超平面,该超平面可以对数据进行分类,分类的标准起源于逻辑回归,logistic回归的目的是从特征学习出一个0/1分类模型,logistic函数(sigmoid函数)的表达形式为:   这个模型是将特征的线性组合作为自变量。由于自变量的取值范围是负无穷到正无穷,因此,sigmoid函数将自变量映射到(0,1)上,对应的类别用y来表示,可以取-1或者1。根据输的概率对数据进行分类,sigmoid函数图像如图1。
  支持向量机也是利用上述分类原理对数据进行分类,如图2所示,wTx+b=0为n维空间的一个超平面,该超平面将数据分开,一般来说,一个点距离超平面的远近可以表示为分类预测的准确程度。支持向量机就是求解■的最大值,也就是说,构造最大间隔分类器γ,使两个间隔边界的距离达到最大,而落在间隔边界上的点就叫做支持向量,明显有y(wT+b)>1。
  当数据不能线性可分时,就需要利用非线性模型才能很好地进行分类,当不能用直线将数据分开的情况下,构造一个超曲面可以将数据分开。SVM采用的方法是选择一个核函数,通过将数据映射到高维空间,在这个空中构造最优分类超平面,用线性分类法进行数据分类。
  然而,在不知道特征映射的形式时,很难确定选择什么样的核函数是合适的。因此,选择不同的核函数可能面临不同的结果,若核函数选择不合适,则意味着将样本映射到了一個不合适的特征空间,很可能导致结果不佳。常用的核函数见表1。
  三、实证分析与应用
  (一)数据说明
  训练数据为2012年8月1日至2016年8月1日沪深300成分股在每月最后一个交易日有交易的股票因子值,市值因子SMB(marketValue)和账面价值比HML(PB)比这两个因子见表2,所有因子数据都通过标准化并处理。利用PB和marketValue两个因子,预测下月该股票的涨跌,利用机器学习中的支持向量机进行训练,数据特征为月度股票因子,训练标签为该股票下个月月初第一个交易日的涨跌,上涨为1,下跌和股价不变标记为0,采用交叉验证方法,其中80%的数据为训练集,20%的数据为测试集,利用R语言中的e1071包进行分析。
  表2 因子名称与因子说明
  ■
  (二)策略回测
  从实验结果看,SVM的测试集预测准确率为62.32%,回测策略为等权重买入当月预测上涨概率排名前20的股票,每月初第一个交易日进行调仓,回测区间共调仓41次。回测区间为2013年7月1日至2017年2月28日,初始资金设为1000000元,利用优矿量化平台进行回测,策略回测的部分持仓记录见表3,策略效果见图3和表4。
  表3 策略回测持仓记录
  ■
  ■
  图3 策略收益率与基准收益率对比
  表4 模型回测结果主要数据
  ■
  由于多因子模型通常为稳健策略,因此为了避免频繁交易带来的高额交易费用,本策略采用了月度定期调仓的手法。从表3,图3和表4的策略回测结果来看,利用支持向量机算法结合Fama-Fench三因子模型设计的交易策略,在回测区间年化收益率为22.4%,超越了13.4%的基准市场收益率,获得了8.2%的阿尔法,这也说明Fama-Fench三因子模型在A股市场依然有效。同时我们也能看到,该策略最大回撤为48.1%,说明在不加入止损、止盈条件下,该策略并不能实现很好的对冲效果。从量化投资的角度来看,利用股指期货进行对冲,是多因子策略的一个很好的选择。
  四、结论
  本文通过利用机器学习中的经典算法支持向量机并结合Fama-Fench三因子模型构建了量化投资策略。通过市值因子和市净率因子,利用机器学习算法,滚动预测下一个月股票的涨跌方向。实验结果发现,支持向量机的预测准确率达到了62.23%,通过预测股票涨跌方向的概率,设计了对应的投资策略,该策略在回测期间的年化收益达到了22.4%,远超过基准年华收益率的13.4%。本文的研究表明,机器学习方法在金融市场有很好的运用空间,在大数据时代的今天,传统统计模型无法从复杂、多维的金融数据中提取出有效的信息特征,而机器学习算法擅长处理复杂、高维数据。这也是人工智能投资在金融行业越来越受到重视的原因。从量化投资这一角度来说,如何将机器学习方法应用到金融投资领域还是一个饱受争议的话题,本文只是从尝试的角度出发,创新的将机器学习方法结合经典的Fama-Fench三因子模型来验证对中国股市的投资效果。而如何将机器学习方法应用到更多的金融投资领域将是本文下一阶段的研究重点。
  参考文献
  [1]Cortes C,Vapnik V.Support-Vector Networks.[J].Machine Learning,1995,20(3):273-297.
  [2]Fama,E.F.&K.R.French(1992),“The cross-section ofexpected stock returns”,Journal of Finance 47:427-466.
  [3]Fama,E.F.&K.R.French(1993),“Common risk factors in the returns on stocks and bonds”,Journal of Financial Economics 33:3-56.
  [4]塞英,张凤廷,张涛.基于支持向量机的中国股指期货回归预测研究[J].中国管理科学,2013,21(3):35-39.
其他文献
【摘要】本文基于2010~2015年银行业统计数据,利用三阶段DEA模型,对我国商业银行金融效率进行测度。经过第一阶段和第三阶段对比显示,分离环境变量、管理无效率项和随机扰动项后我国银行效率均呈下降趋势。  【关键词】三阶段DEA 金融效率 商业银行  一、引言  近年来,我国银行业所面临的经济环境、宏观政策和市场机制发生了深刻变化,随着利率市场化改革加快,主要依靠存贷利率差获得盈利高速增长的传统
期刊
【摘要】通过对1995~2014年影响农业产出的因素进行计量模型检验,回归结果表明土地流转对农业产出增长具有显著影响。并且根据我国农村土地流转的现状和存在的问题,进一步提出相应政策建议。  【关键词】农业 土地流转 产出增长 实证检验  一、引言  第六次人口普查结果显示我国农业人口占全国人口的50.3%,农业的发展对我国至关重要。我国耕地面积占全世界总耕地面积的7%,却要生产出满足1/5世界人口
期刊
【摘要】随着信息技术和知识经济的迅猛发展,现代服务业的经济和社会价值愈发凸显。现代服务业也依靠其密集度高、产出附加值高、消耗资源少的特点成为产业集聚区发展的主要方向。新乡高新区作为连接京津冀、郑洛新、武汉等核心节点城市的纽带,加速其经济发展有着无比重要的意义。目前,新乡高新区正处于加速发展的爬坡期,具有代表性的信息服务业、现代物流业、科技服务业、现代金融业已然成为新乡高新区发展的主要推动力。然而如
期刊
【摘要】京津冀协同发展是习近平总书记提出的推动国家发展的重要战略,对促进“五位一体”全面发展布局和“四个全面”战略布局的发展,树立和落实创新、和谐、绿色、开放、共享等五大概念的新发展,实现中华民族的伟大复兴,具有重要的现实意义。有转移必然有承接,河北省作为重要承接地,如何对接北京市产业转移,精准打造承接平台和载体成为值得研究的问题。  本文以评估河北省承接产业转移的承接力为研究核心,探讨如何通过发
期刊
【摘要】国家外汇管理局自2012年12月以来,先后在全国开展了多批跨国公司外汇资金集中运营管理试点,本着尊重市场需求的原则,已取得明显成效。大幅降低了企业的财务成本,促进了产业结构升级,实体经济受益显著。但是,跨国公司外汇资金的集中运营引起大量的跨境资金流动,也给企业的财务管理工作和风险控制带来了前所未有的考验。跨国公司施行外汇资金集中运营的风险也需要进一步探究。  【关键词】跨国公司 外汇资金
期刊
【摘要】为明确企业实施精益生产后财务及非财务效益变化以及保障精益生产的持续改善,本文提出基于平衡计分卡的财务、顾客、内部运营及学习成长四维度来构建企业实施精益生产前后效益评价体系的想法,从而针对企业在实施精益生产过程中的盲点,指出改善方向,希望能给我国实施精益生产的企业提供指导和借鉴意义。  【关键词】精益生产 平衡计分卡 效益分析  精益生产方式是一套运营管理实践的综合框架,以满足客户需求为目标
期刊
【摘要】本文以企业政治关联为突破点,探究不同产权性质的企业的政治关联对高管薪酬的影响,以及对企业绩效的影响。研究发现,影响高管薪酬的其他经济因素被控制下,无论是国有企业和民营企业,有政治关联的高管会获得更高薪酬。在国有企业中,有政治关联的高管薪酬与企业绩效显著负相关;在民营企业中,有政治关联的高管薪酬与企业绩效显著正相关。  【关键词】政治关联 高管薪酬 企业绩效  一、引言  在企业和国家高速经
期刊
【摘要】本文基于社会责任报告中披露的环境信息,从公司治理、披露情况、环境绩效指标、环境支出、环境现状、自发环保行为六个维度构建环境信息披露指数,对沪深两市制药业上市公司2009~2013年的环境信息披露水平进行评价。结果显示:中国制药业上市公司的环境信息披露整体上仍处在较低水平,但呈提升态势;环境信息披露内容分布不平衡,披露水平具有层次性;行业间披露水平存在显著差异,西药企业披露水平相对高于中药企
期刊
一、引言  随着我国工业化和城市化的快速推进,“撤村建居”和城中村改造步伐的加快,以安置当地“农转非”居民为主的拆迁安置小区的数量和规模呈快速增加的态势[1]。“村转居”社区成为城市基层社会的重要组成部分,也将成为“农民市民化”的重要场域。本文通过对河南省五个“农转非”安置小区物业管理现状进行调查分析;通过评估现有的管理制度的问题,给出相关可行性的建议。  二、相关文献综述  (一)农民安置小区物
期刊
【摘要】省际边界地区处于国家政策“盲区”,在政策的同步实施上面存在延滞性和差异性,影响省际边界地区整体的经济、政治、社会发展。本文通过以实现省际边界地区政策同步性为出发点进行考虑探索,深入分析了苏鲁豫皖省际边界地区财政、税收、产业等方面政策的差异性以及因政策不协调产生的不良后果,提出了产业合作、加强规划、对接交流、打破阻隔等具有建设性的意见和建议,以促进苏鲁豫皖省际边界地区政策的同步性。  【关键
期刊