论文部分内容阅读
[摘要]當今许多金融问题,例如VaR计算、期权定价等,都需要首先对收益率的分布特征有比较准确的描述。之前的研究发现衡量波动性的高频指标——已实现波动(realized volatility,RV)——可以帮助我们更好地预测收益率分布。文章探究这个结论是否适用于中国市场。
[关键词]高频指标;市场;收益分布;预测能力
[DOI]1013939/jcnkizgsc201718063
1引言
我们将异质自回归(HAR)模型(Corsi,2009; Andersen et al,2007)与基准模型EGARCH进行比较,比较的方法是“预测似然度”。预测似然度是根据已实现收益率预测得出的概率密度,是一种衡量数据与模型吻合程度的指标。模型的预测能力越好,它的预测似然度就会越大。平均预测似然度的期限结构能够显示RV在长短不同的预测步数中有多大的作用。
2数据
本文选取2008年1月1日至2015年12月31日期间上证综指5分钟交易数据作为研究对象。中国股市的开盘时间为9∶30-11∶30和13∶00-15∶00,所以每个交易日会有48个5分钟交易数据。对于每个5分钟交易数据,我们计算一个5分钟连续复利对数收益率,并乘以100进行标准化,记为rt,i(i=1,…,I),其中 I 为第t天里5分钟收益率的个数。在中国,I通常等于48,但由于会存在一些交易日提前闭市,所以1945个交易日中一共产生了93360个5分钟收益率。其中,2008—2012年的数据用于模型估计,2013—2015年的数据用于预测,故样本内包含1218个交易日,样本外包含727个。
3RV定义
RV定义为一段时间内收益率的平方和,在股价连续且没有测量错误时,是波动性的一种无偏估计量(Merton,1980)。未经调整的日RV估计量如下计算:
RVt,u=r2t,i(1)
随着日内收益率频率的上升,RV会存在偏误问题——即市场微观噪音(Fang,1996; Andreou and Ghysels,2002; Oomen,2002; Bai、Russell and Tiao,2004)。为了消除有偏性和不一致性,我们采用Hansen and Lunde(2006)所建议的Bartle 权重对RV进行调整,经调整的RV如下计算:
RVt,ACq=r2t,i+2qj=1[(1-jq+1)It-ji=1(rt,irt,i+j)],其中,q=1,2,3(2)
为了跟波动性指标相匹配,日收益率应该使用每天收盘价和开盘价之间的对数差,同样乘以100来标准化。我们将日收益率的方差设为基准,不同RV的均值与其均值做比较,选择最接近的RV用于HAR-RV模型。经过统计性分析,日收益率的方差为2761572;当q=0,1,2,3时,RV的均值分别为2151439、2114523、20197238、2162044。可以看出,未经调整的RV确实存在很大的偏误。当q=2时,RV2的均值与日收益率的方差最接近,所以,HAR-RV模型采用RV2。
HAR-RV模型的估计结果
ln(RVt)=ω+1ln(RVt-1)+2ln(RVt-5,5)+3ln(RVt-22,22)+Vt
Coefficients
ω123
-006955028251028352037673
4基准模型
我们在GARCH族中考虑了三种模型:GARCH、EGARCH和TGARCH。经回归EGARCH模型的最大似然度最大,因此选择EGARCH(1,1)作为基准模型。
5HAR-RV模型
Corsi(2009)提出了一个新模型——已实现波动的异质自回归模型(HAR-RV)。在这个模型中我们可以加入日内数据,模型设定如下:
rt=σtεt,εt~NID0,1
ln(RVt)=ω+1ln(RVt-1)+2ln(RVt-5,5)+3ln(RVt-22,22)+υt(3)
51收益率过程
在标准HAR-RV模型中,高频收益率过程只由日波动率[AKσ~](d)t决定。模型假设[AKσ~](d)t=σ(d)t,其中σ(d)t是日波动率。收益率过程如下所示:
rt=σ(d)tεt,εt~NID0,1(4)
52RVt 等式
HAR-RV的波动性主要来自三方面:进行日或更高频交易的短期交易者,每周进行仓位调整的中期投资者和投资周期高达一至数月的长期投资者。所以,RV定义如下:
ln(RVt)=ω+1ln(RVt-1)+2ln(RVt-5,5)+3ln(RVt-22,22)+υt(5)
其中RVt-1、RVt-5、RVt-22分别为衡量短期(日)、中期(周)和长期(月)的波动,其计算如下:
ln(RVt-h,h)≡1hh-1i=0n(RVt-h+i)ln(RVt-1,1)≡ln(RVt-1)(6)
53σt 和 RVt之间的关系
文献中有两种方法將RV与收益率方差联系起来:一是假设日收益率的有条件方差等于日RV的有条件期望;二是假设收益率方差和RV等同。Forsberg和Bollerslev(2002)、Bollerslev et al(2009)和John et al(2011)在相似的研究中使用了第二种方法,所以在本文我们也使用第二种假设。
54HAR-RV模型估计
基于以上假设,对HAR-RV模型进行回归,我们得到估计模型如下:
ln(RVt)=-006955+0282521ln(RVt-1)+028352ln(RVt-5,5)+037673ln(RVt-22,22) 上述模型將用于接下来的预测似然度计算。
6分布预测
61平均预测似然度
John和Thomas(2011)认为在评价预测能力时多步预测更好,本文与John和Thomas(2011)的目的相同,所以仿照其多步预测的方法来评价两个模型预测能力。对于样本外观测值t=τ+kmax,…,T-k,其平均预测似然度计算如下:
Dk=1T-τ-kmax+1T-kt=τ+kmax-klnfk(rt+k[JB)|]Φt,θ),k≥1(7)
其中fk(rt+k[JB)|]Φt,θ)是向前k期预测的概率分布,T是总样本中观测到的交易日个数,k是向前预测的时间跨度,样本外数据从τ到T。在我们的样本中,T=1945,τ=1219,kmax=60。Dk越大,模型预测的准确性越好。
62向前k期预测的概率分布
我们使用以下公式计算向前k期预测的概率分布,
fk(rt+k[JB)|]Φt,θ)=∫f(rt+k[JB)|]μ,σ2t+k)p(σ2t+k[JB)|]Φt)dσ2t+k
≈1NNi=1f(rt+k[JB)|]μ,σ2(i)t+k)σ2(i)t+k~p(σ2t+k[JB)|]Φt)(8)
其中 f(rt+k[JB)|]μ,σ2(i)t+k)是基于t+k期的真实收益率,服从均值为μ,方差为σt+k2的正态分布。
63计算
首先,对于每一个模拟n次1步至60步向前预测,得到相应的标准差。对于每一个预测跨度,只保留[1279-k,1945-k]这部分,以保证所有预测都落入到这段区间。由于对每一个起点的每一个k步预测都有n次模拟,所以将t∈[1279-k,1945-k]中全部的f(rt+k[JB)|]μ,σ2(i)t+k)求取平均值,作为fk(rt+k[JB)|]Φt,θ),进而再计算fk(rt+k[JB)|]Φt,θ)的平均值,其中t∈[1279-k,1945-k]。最后,根据式(8),可以计算出Dk。
7结论
图1图2为R语言模拟计算出来的Dk值,横轴表示预测步数,纵轴表示每一步所对应的平均预测似然度,分别显示了模拟100次和1000次时,HAR-RV模型与EGARCH模型的预测能力对比。我们有以下发现。
模拟100次时,HAR模型的似然度在步数不大于30的情况下会比EGARCH大。当模拟1000次时,相同的情况发生在预测步数不大于37时:
(1)对于短期预测,HAR模型能大幅提高预测效果,然而在预测中国的长期市场时并不有效。我们认为,导致这种现象的原因在于中国市场受到很多非市场因素的影响,且这些因素会随时间变化。HAR模型更多地依赖于历史数据,非市场因素的變化会导致历史数据“失效”。
(2)随着模拟次数的增加,HAR的似然度降到EGARCH以下所需的步数会越来越大,所以我们推断,如果能够模拟无数次,HAR的预测能力会比本文所展现得更优秀。
(3)图1和图2均显示出HAR的平均预测似然度的期限结构呈现负斜率。
图1模拟100次图2模拟1000次
参考文献:
[1]John,MM,Thomas,HMDo High-frequency Measures of Volatility Improve Forecasts of Return Distributions[J].Journal of Econometrics,2011(160):69-76
[2]Amisano,G,Giacomini,RComparing Density Forecasts via Weighted Likelihood Ratio Tests[J]Journal of Business and Economic Statistics,2007,25(2):177-190
[3]Bollerslev,T,Kretschmer,U,Pigorsch,C,Tauchen,GA Discrete-time Model for Daily S&P500 Returns and Realized Variations:Jumps and Leverage EffectsJournal of Econometrics,2009,150(2):151-166
[关键词]高频指标;市场;收益分布;预测能力
[DOI]1013939/jcnkizgsc201718063
1引言
我们将异质自回归(HAR)模型(Corsi,2009; Andersen et al,2007)与基准模型EGARCH进行比较,比较的方法是“预测似然度”。预测似然度是根据已实现收益率预测得出的概率密度,是一种衡量数据与模型吻合程度的指标。模型的预测能力越好,它的预测似然度就会越大。平均预测似然度的期限结构能够显示RV在长短不同的预测步数中有多大的作用。
2数据
本文选取2008年1月1日至2015年12月31日期间上证综指5分钟交易数据作为研究对象。中国股市的开盘时间为9∶30-11∶30和13∶00-15∶00,所以每个交易日会有48个5分钟交易数据。对于每个5分钟交易数据,我们计算一个5分钟连续复利对数收益率,并乘以100进行标准化,记为rt,i(i=1,…,I),其中 I 为第t天里5分钟收益率的个数。在中国,I通常等于48,但由于会存在一些交易日提前闭市,所以1945个交易日中一共产生了93360个5分钟收益率。其中,2008—2012年的数据用于模型估计,2013—2015年的数据用于预测,故样本内包含1218个交易日,样本外包含727个。
3RV定义
RV定义为一段时间内收益率的平方和,在股价连续且没有测量错误时,是波动性的一种无偏估计量(Merton,1980)。未经调整的日RV估计量如下计算:
RVt,u=r2t,i(1)
随着日内收益率频率的上升,RV会存在偏误问题——即市场微观噪音(Fang,1996; Andreou and Ghysels,2002; Oomen,2002; Bai、Russell and Tiao,2004)。为了消除有偏性和不一致性,我们采用Hansen and Lunde(2006)所建议的Bartle 权重对RV进行调整,经调整的RV如下计算:
RVt,ACq=r2t,i+2qj=1[(1-jq+1)It-ji=1(rt,irt,i+j)],其中,q=1,2,3(2)
为了跟波动性指标相匹配,日收益率应该使用每天收盘价和开盘价之间的对数差,同样乘以100来标准化。我们将日收益率的方差设为基准,不同RV的均值与其均值做比较,选择最接近的RV用于HAR-RV模型。经过统计性分析,日收益率的方差为2761572;当q=0,1,2,3时,RV的均值分别为2151439、2114523、20197238、2162044。可以看出,未经调整的RV确实存在很大的偏误。当q=2时,RV2的均值与日收益率的方差最接近,所以,HAR-RV模型采用RV2。
HAR-RV模型的估计结果
ln(RVt)=ω+1ln(RVt-1)+2ln(RVt-5,5)+3ln(RVt-22,22)+Vt
Coefficients
ω123
-006955028251028352037673
4基准模型
我们在GARCH族中考虑了三种模型:GARCH、EGARCH和TGARCH。经回归EGARCH模型的最大似然度最大,因此选择EGARCH(1,1)作为基准模型。
5HAR-RV模型
Corsi(2009)提出了一个新模型——已实现波动的异质自回归模型(HAR-RV)。在这个模型中我们可以加入日内数据,模型设定如下:
rt=σtεt,εt~NID0,1
ln(RVt)=ω+1ln(RVt-1)+2ln(RVt-5,5)+3ln(RVt-22,22)+υt(3)
51收益率过程
在标准HAR-RV模型中,高频收益率过程只由日波动率[AKσ~](d)t决定。模型假设[AKσ~](d)t=σ(d)t,其中σ(d)t是日波动率。收益率过程如下所示:
rt=σ(d)tεt,εt~NID0,1(4)
52RVt 等式
HAR-RV的波动性主要来自三方面:进行日或更高频交易的短期交易者,每周进行仓位调整的中期投资者和投资周期高达一至数月的长期投资者。所以,RV定义如下:
ln(RVt)=ω+1ln(RVt-1)+2ln(RVt-5,5)+3ln(RVt-22,22)+υt(5)
其中RVt-1、RVt-5、RVt-22分别为衡量短期(日)、中期(周)和长期(月)的波动,其计算如下:
ln(RVt-h,h)≡1hh-1i=0n(RVt-h+i)ln(RVt-1,1)≡ln(RVt-1)(6)
53σt 和 RVt之间的关系
文献中有两种方法將RV与收益率方差联系起来:一是假设日收益率的有条件方差等于日RV的有条件期望;二是假设收益率方差和RV等同。Forsberg和Bollerslev(2002)、Bollerslev et al(2009)和John et al(2011)在相似的研究中使用了第二种方法,所以在本文我们也使用第二种假设。
54HAR-RV模型估计
基于以上假设,对HAR-RV模型进行回归,我们得到估计模型如下:
ln(RVt)=-006955+0282521ln(RVt-1)+028352ln(RVt-5,5)+037673ln(RVt-22,22) 上述模型將用于接下来的预测似然度计算。
6分布预测
61平均预测似然度
John和Thomas(2011)认为在评价预测能力时多步预测更好,本文与John和Thomas(2011)的目的相同,所以仿照其多步预测的方法来评价两个模型预测能力。对于样本外观测值t=τ+kmax,…,T-k,其平均预测似然度计算如下:
Dk=1T-τ-kmax+1T-kt=τ+kmax-klnfk(rt+k[JB)|]Φt,θ),k≥1(7)
其中fk(rt+k[JB)|]Φt,θ)是向前k期预测的概率分布,T是总样本中观测到的交易日个数,k是向前预测的时间跨度,样本外数据从τ到T。在我们的样本中,T=1945,τ=1219,kmax=60。Dk越大,模型预测的准确性越好。
62向前k期预测的概率分布
我们使用以下公式计算向前k期预测的概率分布,
fk(rt+k[JB)|]Φt,θ)=∫f(rt+k[JB)|]μ,σ2t+k)p(σ2t+k[JB)|]Φt)dσ2t+k
≈1NNi=1f(rt+k[JB)|]μ,σ2(i)t+k)σ2(i)t+k~p(σ2t+k[JB)|]Φt)(8)
其中 f(rt+k[JB)|]μ,σ2(i)t+k)是基于t+k期的真实收益率,服从均值为μ,方差为σt+k2的正态分布。
63计算
首先,对于每一个模拟n次1步至60步向前预测,得到相应的标准差。对于每一个预测跨度,只保留[1279-k,1945-k]这部分,以保证所有预测都落入到这段区间。由于对每一个起点的每一个k步预测都有n次模拟,所以将t∈[1279-k,1945-k]中全部的f(rt+k[JB)|]μ,σ2(i)t+k)求取平均值,作为fk(rt+k[JB)|]Φt,θ),进而再计算fk(rt+k[JB)|]Φt,θ)的平均值,其中t∈[1279-k,1945-k]。最后,根据式(8),可以计算出Dk。
7结论
图1图2为R语言模拟计算出来的Dk值,横轴表示预测步数,纵轴表示每一步所对应的平均预测似然度,分别显示了模拟100次和1000次时,HAR-RV模型与EGARCH模型的预测能力对比。我们有以下发现。
模拟100次时,HAR模型的似然度在步数不大于30的情况下会比EGARCH大。当模拟1000次时,相同的情况发生在预测步数不大于37时:
(1)对于短期预测,HAR模型能大幅提高预测效果,然而在预测中国的长期市场时并不有效。我们认为,导致这种现象的原因在于中国市场受到很多非市场因素的影响,且这些因素会随时间变化。HAR模型更多地依赖于历史数据,非市场因素的變化会导致历史数据“失效”。
(2)随着模拟次数的增加,HAR的似然度降到EGARCH以下所需的步数会越来越大,所以我们推断,如果能够模拟无数次,HAR的预测能力会比本文所展现得更优秀。
(3)图1和图2均显示出HAR的平均预测似然度的期限结构呈现负斜率。
图1模拟100次图2模拟1000次
参考文献:
[1]John,MM,Thomas,HMDo High-frequency Measures of Volatility Improve Forecasts of Return Distributions[J].Journal of Econometrics,2011(160):69-76
[2]Amisano,G,Giacomini,RComparing Density Forecasts via Weighted Likelihood Ratio Tests[J]Journal of Business and Economic Statistics,2007,25(2):177-190
[3]Bollerslev,T,Kretschmer,U,Pigorsch,C,Tauchen,GA Discrete-time Model for Daily S&P500 Returns and Realized Variations:Jumps and Leverage EffectsJournal of Econometrics,2009,150(2):151-166