基于遗传算法的指数复制方法及其实证研究

来源 :上海师范大学学报·自然科学版 | 被引量 : 0次 | 上传用户:wolfseason
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要: 指数化投资策略是证券市场主要投资方法和投资策略之一,其核心内容就是构建一个能够完全复制指数走势的跟踪组合,所以研究指数复制方法具有重要的理论意义和巨大的应用价值.对标准的遗传算法进行改造,重新设计了遗传算法的编码方式,适应度函数以及遗传算子,采用最优保存策略加快算法的收敛效率.使用MATLAB语言实现算法,以沪深300作为目标指数,对历史数据进行回测,从实证结果来看,所设计的算法取得不错的跟踪效果.通过对遗传算法和传统的市值抽样法和行业分层抽样法进行对比,发现遗传算法的跟踪效果略优于传统的指数复制方法,遗传算法在指数复制领域有广阔的应用前景.
  关键词: 被动投资; 指数复制; 遗传算法
  中图分类号: F 830.9 文献标志码: A 文章编号: 10005137(2017)02018609
  Abstract: Indexation investment strategy is one of the main investment strategies in the securities market.The main goal of index investment is to build a stock portfolio to replicate the standard genetic algorithm,redesignsed its coding,fitness function and genetic operator.In the meanwhile,we used elitist strategy to accelerate the convergence of the algorithm.We used MATLAB language to implementar algorithm and applied to SH300 index back testing with historical data.From the empirical results,our redesigned algorithm achieved good tracking effect.We compared our algorithm with traditional market capitalization sampling and industry sampling stratified sampling method,and found that the track performance of genetic algorithm is better than the conventional index replication methods.our study shows that the genetic algorithm in the index replication has broad applications field.
  Key words: passive investment; index replication; genetic algorithm
  0 引 言
  指数化投资的理念诞生于20世纪70年代,经历了40多年的發展之后,已经成为了美国乃至世界范围内的主要投资方法和投资策略之一.国外的Roll(1992)[1]将Markowitz的均值-方差模型引入指数跟踪问题中,以跟踪组合收益率与目标指数收益率之差平方和作为优化目标,通过最小化跟踪误差的波动率来确定跟踪组合的权重,以此来改进跟踪组合对目标指数的复制效果.J Shapcott[2]于1992年第一次成功地把遗传算法应用于指数跟踪研究领域中寻找最优跟踪组合,将指数跟踪模型归结为一个二次规划问题,然后用随机寻优的遗传算法构建指数跟踪组合,求解此二次规划问题的最优解,用RPL语言对FTSE100(金融时报100指数)进行了实证分析.JE Beasley,N Meade,TJ Chang.(2002)等[3]设计了一种启发式进化算法用以解决指数复制问题,系统地阐述了指数跟踪模型的构建过程,并全面考虑了现实生活中所需要的约束条件,如持仓比例限制,交易费用,卖空约束等,采用不同市场的指数及其成分股历史数据进行测试,实证表明该算法能够有效地解决指数跟踪复制问题.
  我国指数化投资规模从诞生到快速成长,实现了跨越式发展.投资者对指数化投资认识的不断加深,指数复制和跟踪技术已经成为了理论界和实务界的研究热点,国内的学者在指数复制和跟踪技术方面已经取得了一些研究成果.林飞[4]系统地研究指数化投资理论,在[4]中详细地概述了指数化投资的理论和方法,提出了指数化投资研究领域应有的理论框架体系,并使用国内证券市场的数据对指数化投资领域涉及的相关问题进行理论探讨与实证分析.张红泽[5]将遗传算法应用于指数跟踪问题,通过对二进制编码的染色体进行选择,交叉、变异等遗传操作来解决成分股挑选的问题,将适应度函数设计为跟踪误差最小化模型的目标函数的某种转换形式,跟踪误差最小化模型采用二次规划模型,所求出的解为组合各成分股的权重,而将最优解代入目标函数所得值为染色体对应的股票组合的适应度函数值,同时也是该股票组合的跟踪误差值,在迭代进化过程中,跟踪误差越小的股票组合有越大的概率被保留下来.最终实证表明,该算法有不错的跟踪效果.陈杰[6]结合因素模型和均值-方差模型的思想,提出了带基数约束的多因素指数跟踪模型.利用多因素模型来刻画股票的收益,以市场组合的贝塔值为基准,对跟踪组合贝塔值进行控制的同时最小化投资组合的风险,得到两种多因素指数跟踪模型.从原问题的拉格朗日对偶出发,利用锥优化理论获得一类改进的混合01二次规划等价模型.数值试验表明,新等价模型在计算效率方面较明显的优势.苏治等[7]将目前流行的规则化方法加入到传统指数追踪模型中,得到若干种稀疏而且稳定的资产组合,用于复制指数的收益率,并构建样本内外预测、模型一致性、资产组合稀疏性和BIC准则进行模型效果评价.其研究方法和结果对指数型基金管理公司、个人和投资机构者有一定的实际意义.   从目前已有的文献来看,大多数学者在研究指数复制问题上,都把成分股的挑选和权重的配置分开来研究,即主要采用两阶段优化法居多数,而事实上如果要构建一个优秀的跟踪组合,则需要两个问题都兼顾,单独研究这其中的一个问题,很难找到足够优秀的股票跟踪组合.因此,探究指数复制问题中的单阶段优化法具有重大的意义.为了改变传统的指数复制方法,通过人为的经验和简单的抽样规则构造指数跟踪组合,本文设计了一种改进的遗传算法,该算法是一种单阶段优化法,通过对历史数据的学习,让计算机程序实现指数跟踪组合股票的挑选和跟踪组合股票权重的优化,从而较好地解决了指数复制中选股和权重优化的问题.
  在此提出一种新的处理方式确定交叉点,具体如下:
  随机挑选两个染色体配对,分别标记为父代1和父代2;把父代1上每个基因的值减去父代2相应基因的值,得到序列称为差序列;对差序列求累积和,得到和序列;和序列中0对应的基因位置(最后1个基因位置除外)即为可行的交叉点,这些交叉点可以保证父代经过交叉后得到的子代个体对应的股票数目为原先指定的抽样数目.
  采用了最优保存策略.在循环迭代过程中,设置一个历史最优个体,该个体从开始迭代至今是适应度最高的个体,在每一代完成交叉、变异等遗传操作后,将当代中适应度最高的个体与历史最优个体比较,如果当代中最优个体的适应度比历史最优个体的适应度高,则将当代最优个体作为历史最优个体,否则就用历史最优个体替换当代适应度最差的个体.该策略有助于遗传算法的收敛,但也容易使某个局部最优个体不易被淘汰反而迅速扩散敛.
  遗传算法流程如下:确定目标指数,抽样数目;对目标指数成分股进行二进制编码构造染色体;随机产生初始种群,迭代次数t=1;对种群中的每条染色体进行解码得到跟踪组合,通过求解二次规划模型(7)得到跟踪组合的权重及跟踪误差,并利用变换公式(8)得到每条染色体的适应度值;把初始解设为历史最优跟踪组合;判断迭代次数t是否小于最大迭代次数G,若t≤G,则对染色体进行选择、交叉、变异等遗传操作得到新种群,计算新种群的适应度,把该种群中适应度最好的跟踪组合与历史最优组合进行对比,如果历史最优组合更好,则将种群中适应度最低的组合替换为历史最优组合,反之,如果种群中适应度最好的跟踪组合优于历史最优组合,则用该跟踪组合替换历史最优组合,迭代次数t=t+1,若t>Gt,则终止迭代.
  在遗传算法中,通过交叉、变异等遗传操作可以产生出新的个体,使群体向着越来越多优良个体进化,但是因为选择、交叉、变异等遗传操作具有随机性,它们可能会破坏当前群体中适应度最好的个体,也可能使群体中适应度最好的个体没有遗传到下一代去,因为那样会降低群体的平均适应度,影响算法的运行效率和收敛性.为了使适应度最好的个体尽量保留到下一代群体中,本文作者采用了最优保存策略解决此难题.在循环迭代过程中,设置一个历史最优个体,该个体是从开始迭代至今是适应度最高的个体,在每一代完成交叉、变异等遗传操作后,将当代中适应度最高的个体与历史最优个体比较,如果当代中最优个体的适应度比历史最优个体的适应度高,则将当代最优个体作为历史最优个体,否则就用历史最优个体替换当代适应度最差的个体.该策略有助于遺传算法的收敛,不过也容易使某个局部最优个体不易被淘汰反而迅速扩散.
  1.3 跟踪质量衡量指标
  采用跟踪误差TE、相关系数、平均误差、最大正向误差和最大负向误差这5个指标对跟踪组合的效果进行分析.跟踪误差TE的定义即式子(4).
  相关系数表示的是跟踪组合收益率与目标指数收益率之间的相关程度,相关系数越大,说明跟踪组合的复制效果越好,跟踪误差越小.相关系数的计算公式如下:
  2 实证分析
  以沪深300作为目标指数,用遗传算法进行了实证分析,对算法中的几个重要参数进行了比较和研究,且将遗传算法的运行结果与市值抽样、行业分层抽样进行对比分析,探究该遗传算法在指数复制领域的应用价值.
  2.1 探究抽样数对遗传算法复制指数效果的影响
  从表1的结果来看:(I)在样本期内,跟踪误差TE随着样本容量的增加而逐渐减少,这与事实相符,通常情况下,指数复制的效果随着抽样数目的增加会越来越好.在样本期外,跟踪误差TE随着抽样数目增加呈现下降趋势,相关系数随着抽样数目增加呈现上升趋势,平均误差随着抽样数目增加呈现下降趋势,可以断定,随着抽样数目的增加,基于遗传算法的指数复制策略效果越来越好.(II)样本期外的跟踪误差TE并没有遵循严格单调递减的规律,这主要是因为遗传算法是一种基于概率寻优的算法,其运行结果未必是全局最优解,如果想要得到更充分的结论,需要做大量测试,而在本节中,只进行了少量的测试,因此,相关结论仍需进一步探究.
  2.2 基于遗传算法的指数复制方法与传统方法对比分
  将遗传算法应用于跟踪沪深300指数,并与传统的最大市值占比法和行业分层抽样法进行了对比分析,检验本研究所提出的遗传算法复制指数的可行性.
  参数设定.给出遗传算法的参数设定,共分为两个时间阶段,第一个时间阶段的样本内时间窗口为20131230~20140331共60个交易日,T=60,样本外时间窗口为20140401~20140627共60个交易日,目标指数仍为沪深300指数,以20140331日沪深300的成分股作为选股池,取N=300,设εi=0.001,i=1,2,…,T,即跟踪组合中每只股票持有的最小比例为0.001,δi=0.1,i=1,2,…,T,跟踪组合中每只股票持有的最大比例为0.1,抽样数目k取60.遗传算法中需要用到的参数种群大小取50,最大进化代数设为60,交配概率设0.95,变异概率设为0.1.第二个时间阶段的样本内时间窗口为20140402~20140630共60个交易日,即t=60,样本外时间窗口为20140701~20140929共64个交易日,其他参数不变.   最大市值占比法以指数供应商提供的沪深300指数成分股数据进行抽样,将沪深300指数成分股按照市值权重从大到小排列,抽取前60只股票作为跟踪组合,然后将跟踪组合里的股票比例适当扩大,使组合里的股票权重比例和为1.
  行业分层抽样法是把沪深300指数成分股按照中证一级行业分为10组,分别是电信、工业、公用事业、金融地产、可选消费、能源、信息技术、医药卫生、原材料和主要消费,由于要抽样60只股票,占沪深300指数成分股数目的1/5,故从每个行业中抽取1/5的股票数组成跟踪组合,然后将跟踪组合里的股票比例适当扩大,使组合里的股票权重比例和为1.
  2.3 基于遗传算法的指数复制方法结果分析
  第一个时间阶段遗传算法的训练结果,见图2.
  第二个时间阶段遗传算法的训练结果,见图3.
  从图2图3中可以很清楚地观察到,该遗传算法是有效的,随着进化代数的增加,种群的平均适应度逐步增大,最大适应度也在逐渐增大,向着全局最优解进化.该遗传算法的结果可以算出.为了进一步说明结果的合理性,从行业结构的对遗传算法得到的结果做简要的数据分析,相关结果见表2,表3和图4,图5.
  从上述图表的数据分析结果可以看出,利用遗传算法所求得的结果的行业结构分布与沪深300指数的行业结构相似,这更进一步印证了该算法的可行性.
  2.4 基于遗传算法的指数复制方法和传统方法结果对比
  遗传算法和传统的最大市值占比法、行业分层抽样法的结果进行对比,三种算法的结果对比见表4和表5.
  从表4可以看出,在第一个时间阶段遗传算法的跟踪效果与最大市值占比法相近,略逊色于行业分层抽样法,而从表5可以看出,在第二个时间阶段遗传算法的跟踪效果显著优于最大市值占比法和行业分层抽样法,总的来说,遗传算法的跟踪效果并不逊色于传统方法,甚至有可能比传统方法更好.本文所提出的遗传算法应用于复制沪深300指数,用历史数据进行实证检验,测试该算法的可行性.研究了不同的抽样数目对遗传算法复制指数效果的影响,发现抽样数目越大,指数复制的效果越好.遗传算法还留有改进的空间,进一步探究则可能得到比传统方法更优秀的指数复制方法.可见遗传算法在指数复制领域具有较大的应用潜力.
  3 结 论
  指数跟踪技术可以用于构造指数现货组合进行期现套利.由于近来很多分级基金产品都是被动跟踪指数的,因此,指数跟踪技术在这一方面具有很大的应用价值.本研究发现遗传算法在指数复制领域有非常大的应用潜力,然而我国在这一方面的研究文献甚少,故此进行了探索,通过对标准遗传算法进行改造,并将其应用于沪深300指数的抽样复制,从实证结果来看,基于遗传算法的指数复制策略取得了不错的效果.
  本研究尚有不足之处,主要体现在以下几个方面:首先,测试周期较短,遗传算法是否長期有效仍需进一步验证;其次,没有对遗传算法的参数进行讨论,这说明算法尚存较大的改进空间,遗传算法在这一领域的应用前景非常广阔.
  参考文献:
  [1] Roll R.A mean/variance analysis of tracking error [J].The Journal of Portfolio Management,1992,18(4):13-22.
  [2] Shapcott J.Index tracking:Genetic algorithms for investment portfolio selection [J].Work Paper,1994:EPCCSS92-24.
  [3] Beasley J E,Meade N,Chang T J.An evolutionary heuristic for the index tracking problem [J].European Journal of Operational Research,2003,148:621-643.
  [4] Lin F.A theoretical and empirical research on indexing [D].Xiaman:Xiaman University,2003.
  [5] Zhang H Z.Reseach on stock return based on genetic algorithm [D].Shanghai:University of International Business and Economics,2008.
  [6] Chen J.Index Tracking based portfolio selection model and its empirical analysis [D].Shanghai:Fudan University,2012.
  [8] Su Z,Fang T,Qin L.A design of optimal indx tracking models based on regularized methods [J].The Journal of Quantitative & Technical Economics,2016(4):145-160.
  (责任编辑:冯珍珍)
其他文献
利用生物信息学分析方法,在菠菜全基因组中鉴定出了菠菜(Spinacia oleracea)抗坏血酸过氧化物酶(APX)家族成员,并对其理化性质、亚细胞定位、基因结构、保守基序、同源关系及
摘要: 推导了四单元混联系统屏蔽数据场合下的似然函数,并且给出了常数失效率单元和线性失效率单元所组成的四单元混联系统屏蔽数据的参数的极大似然估计,以及采用似然比构造区间估计的方法得到参数的近似区间估计.  关键词: 屏蔽数据; 四单元混联系统; 极大似然估计; 近似区间估计  中图分类号: O 213 文献标志码: A 文章编号: 10005137(2017)02017808  Abstract:
党的十九大作出了中国特色社会主义进入新时代的重大政治判断。用心用情用力解决好离退休人员生活中的实际困难,不仅让 离退休人员收获生活便利,也架设起了连接河南油田与离
网站的数据内容很容易受不良行为攻击,本文就网络系统目前的安全体系。以著名的RSA算法和DES算法为基础,提出一种互补性的混合数据加密方案及其实现过程,这种新的加密方案具有加
针对目前日益严重的网络安全问题,提出了一套经济实用的主动防御安全解决体系。该体系有机结合了多种安全技术,征对网络的开放和复杂性,提出了一个完整的主动防御体系模型,采用蜜
摘要: 提出基于张量分解的大规模多输入多输出(MIMO)天线预编码方案,利用张量分解对高维天线发送数据的降维,保持数据的低秩多维结构特征,获得更加有效的数据表示;同时,通过联合天线和用户信号的空域和时域的相关性,实现发射分集,克服大规模MIMO信道衰落和降低发射误码.通过仿真结果表明该方案适用于大规模MIMO系统.在相同条件下,与传统方案相比,误比特率更低.  关键词:  大规模多输入多输出; 张