论文部分内容阅读
摘要:介绍了广义中心极限定理、稳定分布,认为稳定分布因具有类似于现实实证分布的前段指数,后端幂律的形式,以上证指数的日收益率序列为例,用稳定分布对其进行拟合,取得较理想的拟合效果。
关键词:广义中心极限定理;稳定分布;Stable4.0拟合
一、引言
1963年Mandelbrot针对棉花期货价格分布的尖峰厚尾特征,将布朗运动服从正态分布改为服从稳定分布,推广和修正了布朗运动。Mandebret是最先以稳定分布来拟合实际资产收益。而稳定分布是由PaulLevy于1920年提出的。随后Fama&Roll、Press和Zolotare基于稳定分布的特征函数分别给出了稳定指数α的估计方法。1996年,MuCulloch综述了稳定分布在金融领域的相关应用。在国内,稳定分布被不少学者应用到金融模型分析、噪声数据监测、话务量建模等实际领域。徐龙炳等(2002)通过对中国股票市场的实证研究,发现其分布呈现厚尾,股票市场波动显示出非线性、状态持续性特征,用正态分布往往难以描述,而用稳定分布却能很好的处理该类分布。欧阳文卓等(2002)等对稳定分布及其性质特征展开了进一步研究,并进行参数估计。戴国强等(2004)对稳定分布对外汇市场进行实证研究,分析了汇率波动的稳态特征。王玉玲(2004)对中国股票市场VaR值进行了实证研究,用稳定分布去拟合、模拟。2008年,田乃硕、徐秀丽、马占友在《离散时间排队论》中讨论了马尔可夫链与稳定分布。
近年来对稳定分布的研究越来越引起重视。本文采用稳定分布来拟合上证指数日收益数据,基于以下原因:首先,根据广义中心极限定理,如果大量独立同分布随机变量的和存在极限分布,这个极限分布必定属于稳态分布族;其次,由于大多数数据序列分布具有尖峰厚尾特征,稳定分布具有类似于现实实证分布的前段指数,后端幂律的形式,用正态分布描述效果不佳,如果用稳定分布去逼近能够取得较理想的拟合效果。
二、广义中心极限定理
在经典的中心极限定理中,对于每个独立同分布的随机变量Xi,我们其分布形式没作任何要求,唯一的要求是方差有限,这样就可以保证n个随机变量的和趋于一个正态分布。也就是:。因此,正态分布是一种非常具有鲁棒性(Robust)的分布,它就像密度函数空间中的的吸引域,无论你一开始服从什么分布,最后都很有可能掉入这个吸引域。这也是正态分布如此常见的原因。然而,不得不说的是,经典中心极限定理的巨大应用价值下存在着致命的缺陷:该定理要求每个独立的随机变量都必须存在有限的方差,而这一要求在很多实际情况中往往不一定被满足。以幂律分布为例,当幂指数<2时,随机变量的方差是发散的。因为幂律分布的二阶矩在幂指数α<2时就趋于无穷大。如下:
P.P.Levy,A.Kolmogrov等人于20世纪初扩展了经典中心极限定理,推广到广义中心极限定理,并在这个过程中,发现了稳定分布(StableDistribution)这一新的概率分布形式。
简单来说,广义中心极限定理就是对于n个方差可以无限(当然涵盖方差有限情形)的独立同分布随机变量Y1,Y2,…Yn,当n→∞时,它们的和收敛于一个稳定分布Y,如下:
正态分布之所以普遍是因为它相当于方差有限的随机变量的极限状态,即形成了一个吸引域,同样的道理,我们之所以在各种复杂的系统中观察到众多的尾部服从幂律分布,也是在于稳定分布的鲁棒性,对方差可能无限的随机变量和形成了一个吸引域。
稳定分布受到了极大的关注,因为很多研究表明,现实世界普遍存在的幂律分布仅适用于实际密度函数的尾部,而在头端,则会出现类似指数函数的形式。而稳定分布恰恰具有类似于现实实证分布的这种前段指数,后端幂指的形式,但是遗憾的是,稳定分布仅仅能够给出其特征函数的解析式,而不存在一般的概率密度表达式。稳定分布的特征函数的解析式如下:
(1)
其中,s是自变量,i是虚数单位,sgn是符号函数(当s>0,sgn(s)=1;当s<0,sgn(s);当s=0,sgn(s)=0),α,β,δ,γ为参数,他们的取值范围为:α∈(0,2]β∈[-1,1]δ∈(-∞,+∞)γ∈(0,+∞),这些参数决定了密度曲线f(x)的形状和位置。其中δ为位置参数,决定了曲线中心的位置,是一个平移参数;γ为尺度参数,是曲线在水平方向上的缩放参数;而α,β这两个关键参数分别叫做稳定指数和偏度参数,决定了概率密度曲线的陡峭程度和偏斜程度。
实际上,当α、β取不同特殊值时,我们就能得到常见的曲线。如果让α=2,β=0时,我们就得到了正态分布,均值μ=δ,方差σ2=2γ2。如果让α=1,β=0,我们就得到了柯西分布。如果让a=1/2,β=1,我们就得到了列维分布。而让β=0,γ=0,稳定分布便退化为常数。
三、稳定分布的推导
那么我们是如何得到稳定分布的特征函数解析式(1)的呢?接下来我们进行简答的推导。我们对经典中心极限定理做一个小小的变形,即也可以表述为:对n个方差有限的独立同分布的随机变量X1,X2,…Xn的和,即:
其中,X服从标准正态分布N(0,1)
同样的道理,广义中心极限定理情形下可以表述为:
其中,Y为一个δ=0,γ=1的稳定分布
我们发现,(2)式和(3)式之间最主要的区别是(2)中an正比于n的1/2次幂,而(3)正比于n的1/α次幂。我们把n项分为两部分:前面m项和后面n-m项,即:
其中,m、n-m均趋近于无穷大(因为n趋近于无穷大),从而:
从而:原来的式(3)可以表述为:
我们比较(3)式和(4)式,会发现稳定分布的随机变量Y满足下式:
其中,b=bm+n-bm-bn,等号表示方程两边的随机变量有相同的分布(7)式就是稳定分布的定义,也就是说任何满足(7)式的随机变量都是稳定分布的,反过来,如果随机变量是稳定分布的,它就应该满足(7)式,接着,我们假设Y的概率密度函数是f(y),可以将(7)式改写为如下表述: 对上式进行fourier变换,即可得到稳定分布特征函数解析式(1)。
四、稳定帕累托分布实证拟合可行性
我们发现,真正的统计物理学家或者数学家都很乐意提及一种称为LevyStableDistribution的模型,也就是说,他们更愿意用稳定帕累托分布来对数据进行实证研究而非幂律分布。比如,大名鼎鼎的Mandelbrot在1967年就用Stable分布来拟合棉花期货价格的波动分布。经济物理学之父H.E.Stanley和Mantegna曾勇截尾Stable分布来拟合股指波动的分布。为什么这些物理学家、数学家更倾向于用稳定帕累托分布而非幂律分布呢?因为稳定分布的概率密度函数恰恰具有尾端趋于幂律分布,而头端(x→0)偏离幂律,趋于指数分布的性质。下面我们看一看Yakovenko等在1997年用美国真实税收情况估计收入分布曲线的实证研究。
美国收入分布的累积概率图,
来源:Yakovenko(2001)
其中,横坐标是收入值,纵坐标是累积概率分布,也就是收入大于横坐标x人口比例。我们可以看出,收入分布曲线明显的分成了两段,第一段为左边的那段弧形曲线,第二段为右下方的直线。由于上图坐标为双对数,所以直线段是幂律的,即Pareto分布,而第一段的曲线不是幂律的,作者用小图表示出在横坐标不取对数,纵坐标取对数的情形,发现该曲线在半对数坐标下变成了直线,也就是说收入在低端部分是指数分布。
五、稳定分布拟合
(一)稳定分布参数估计
本章采用JohnNolan所提供的STABLE4.0软件。JohnNolan在2002年给出了对大样本数据进行处理的程序,可以通过程序拟合以下四个参数:α,β,δ,γ他们的取值范围为:α∈(0,2]β∈[-1,1]δ∈(-∞,+∞)γ∈(0,+∞)这些参数决定了密度曲线f(x)的形状和位置。其中δ为位置参数,决定了曲线中心的位置,是一个平移参数;γ为尺度参数,是曲线在水平方向上的缩放参数;而α,β这两个关键参数分别叫做稳定指数和偏度参数,决定了概率密度曲线的陡峭程度和偏斜程度。
运行STABLE4.0程序,利用程序的第7项(forfittingasamplewithstableparameters),得到收益数据的基本统计信息;并进一步选择估计参数的方法(本文选择了极大似然估计),估计出稳定分布的四个参数:α、β、δ、γ;同时,由稳定分布的性质α=2,β=0时,稳定分布呈现正态分布。如下:
42 0 0 1 0.995416 0.999993
由表二,对比稳定分布、正态分布与经验分布函数,可以看出稳定分布具有更优的拟合效果,尤其在众数附近(表中加深区域),这也反映了稳定分布的尖峰特性;同时,从尾部数据看,稳定分布的数据相比正态分布的数据显示出了厚尾性,更好的刻画的极端事件的分布特点。
因此,本文引入稳定分布来拟合极端事件的分布是合适、可行的,并发现用稳定分布来拟合上证指数日收益数据的分布,更优于正态分布,更能反映出收益分布左偏、厚尾特性。
参考文献:
[1]田乃硕,徐秀丽,马占友著.离散时间排队论[M].北京:经济科学出版社,2008。
[2]王玉玲.基于稳定分布的中国股票市场VaR研究[D].武汉:武汉理工大学,2004。
[3]FamaF,RollR.Somepropertiesofsymmetricstabledistributions[J].JournaloftheAmericanStatisticalAssociation,1968,63:817-836。
[4]MalcolmH.D.KempExtremeevents—RobustPortfolioConstructioninthePresenceofFatTail[M].PublishedbyJohnWiley&Sons,Ltd.2011。
[5]MandelbrotB.Thevariationofcertainspeculativeprices[J].Journalofbusiness,1963:36:304-419。
[6]PressS.Estimationinunivariateandmultivariatestabledistributions[J].JournaloftheAmericanStatisticalAssociation,1972,67(340):842-847。
[7]Reiss,R.D.Thomas,M.Statisticalanalysisofextremevalues[M].PublishedbyBirkhuserBasel,2007。
[8]Stabledistribution:http://academic2.american.edu/~jpnolan/stable/stable.html。
关键词:广义中心极限定理;稳定分布;Stable4.0拟合
一、引言
1963年Mandelbrot针对棉花期货价格分布的尖峰厚尾特征,将布朗运动服从正态分布改为服从稳定分布,推广和修正了布朗运动。Mandebret是最先以稳定分布来拟合实际资产收益。而稳定分布是由PaulLevy于1920年提出的。随后Fama&Roll、Press和Zolotare基于稳定分布的特征函数分别给出了稳定指数α的估计方法。1996年,MuCulloch综述了稳定分布在金融领域的相关应用。在国内,稳定分布被不少学者应用到金融模型分析、噪声数据监测、话务量建模等实际领域。徐龙炳等(2002)通过对中国股票市场的实证研究,发现其分布呈现厚尾,股票市场波动显示出非线性、状态持续性特征,用正态分布往往难以描述,而用稳定分布却能很好的处理该类分布。欧阳文卓等(2002)等对稳定分布及其性质特征展开了进一步研究,并进行参数估计。戴国强等(2004)对稳定分布对外汇市场进行实证研究,分析了汇率波动的稳态特征。王玉玲(2004)对中国股票市场VaR值进行了实证研究,用稳定分布去拟合、模拟。2008年,田乃硕、徐秀丽、马占友在《离散时间排队论》中讨论了马尔可夫链与稳定分布。
近年来对稳定分布的研究越来越引起重视。本文采用稳定分布来拟合上证指数日收益数据,基于以下原因:首先,根据广义中心极限定理,如果大量独立同分布随机变量的和存在极限分布,这个极限分布必定属于稳态分布族;其次,由于大多数数据序列分布具有尖峰厚尾特征,稳定分布具有类似于现实实证分布的前段指数,后端幂律的形式,用正态分布描述效果不佳,如果用稳定分布去逼近能够取得较理想的拟合效果。
二、广义中心极限定理
在经典的中心极限定理中,对于每个独立同分布的随机变量Xi,我们其分布形式没作任何要求,唯一的要求是方差有限,这样就可以保证n个随机变量的和趋于一个正态分布。也就是:。因此,正态分布是一种非常具有鲁棒性(Robust)的分布,它就像密度函数空间中的的吸引域,无论你一开始服从什么分布,最后都很有可能掉入这个吸引域。这也是正态分布如此常见的原因。然而,不得不说的是,经典中心极限定理的巨大应用价值下存在着致命的缺陷:该定理要求每个独立的随机变量都必须存在有限的方差,而这一要求在很多实际情况中往往不一定被满足。以幂律分布为例,当幂指数<2时,随机变量的方差是发散的。因为幂律分布的二阶矩在幂指数α<2时就趋于无穷大。如下:
P.P.Levy,A.Kolmogrov等人于20世纪初扩展了经典中心极限定理,推广到广义中心极限定理,并在这个过程中,发现了稳定分布(StableDistribution)这一新的概率分布形式。
简单来说,广义中心极限定理就是对于n个方差可以无限(当然涵盖方差有限情形)的独立同分布随机变量Y1,Y2,…Yn,当n→∞时,它们的和收敛于一个稳定分布Y,如下:
正态分布之所以普遍是因为它相当于方差有限的随机变量的极限状态,即形成了一个吸引域,同样的道理,我们之所以在各种复杂的系统中观察到众多的尾部服从幂律分布,也是在于稳定分布的鲁棒性,对方差可能无限的随机变量和形成了一个吸引域。
稳定分布受到了极大的关注,因为很多研究表明,现实世界普遍存在的幂律分布仅适用于实际密度函数的尾部,而在头端,则会出现类似指数函数的形式。而稳定分布恰恰具有类似于现实实证分布的这种前段指数,后端幂指的形式,但是遗憾的是,稳定分布仅仅能够给出其特征函数的解析式,而不存在一般的概率密度表达式。稳定分布的特征函数的解析式如下:
(1)
其中,s是自变量,i是虚数单位,sgn是符号函数(当s>0,sgn(s)=1;当s<0,sgn(s);当s=0,sgn(s)=0),α,β,δ,γ为参数,他们的取值范围为:α∈(0,2]β∈[-1,1]δ∈(-∞,+∞)γ∈(0,+∞),这些参数决定了密度曲线f(x)的形状和位置。其中δ为位置参数,决定了曲线中心的位置,是一个平移参数;γ为尺度参数,是曲线在水平方向上的缩放参数;而α,β这两个关键参数分别叫做稳定指数和偏度参数,决定了概率密度曲线的陡峭程度和偏斜程度。
实际上,当α、β取不同特殊值时,我们就能得到常见的曲线。如果让α=2,β=0时,我们就得到了正态分布,均值μ=δ,方差σ2=2γ2。如果让α=1,β=0,我们就得到了柯西分布。如果让a=1/2,β=1,我们就得到了列维分布。而让β=0,γ=0,稳定分布便退化为常数。
三、稳定分布的推导
那么我们是如何得到稳定分布的特征函数解析式(1)的呢?接下来我们进行简答的推导。我们对经典中心极限定理做一个小小的变形,即也可以表述为:对n个方差有限的独立同分布的随机变量X1,X2,…Xn的和,即:
其中,X服从标准正态分布N(0,1)
同样的道理,广义中心极限定理情形下可以表述为:
其中,Y为一个δ=0,γ=1的稳定分布
我们发现,(2)式和(3)式之间最主要的区别是(2)中an正比于n的1/2次幂,而(3)正比于n的1/α次幂。我们把n项分为两部分:前面m项和后面n-m项,即:
其中,m、n-m均趋近于无穷大(因为n趋近于无穷大),从而:
从而:原来的式(3)可以表述为:
我们比较(3)式和(4)式,会发现稳定分布的随机变量Y满足下式:
其中,b=bm+n-bm-bn,等号表示方程两边的随机变量有相同的分布(7)式就是稳定分布的定义,也就是说任何满足(7)式的随机变量都是稳定分布的,反过来,如果随机变量是稳定分布的,它就应该满足(7)式,接着,我们假设Y的概率密度函数是f(y),可以将(7)式改写为如下表述: 对上式进行fourier变换,即可得到稳定分布特征函数解析式(1)。
四、稳定帕累托分布实证拟合可行性
我们发现,真正的统计物理学家或者数学家都很乐意提及一种称为LevyStableDistribution的模型,也就是说,他们更愿意用稳定帕累托分布来对数据进行实证研究而非幂律分布。比如,大名鼎鼎的Mandelbrot在1967年就用Stable分布来拟合棉花期货价格的波动分布。经济物理学之父H.E.Stanley和Mantegna曾勇截尾Stable分布来拟合股指波动的分布。为什么这些物理学家、数学家更倾向于用稳定帕累托分布而非幂律分布呢?因为稳定分布的概率密度函数恰恰具有尾端趋于幂律分布,而头端(x→0)偏离幂律,趋于指数分布的性质。下面我们看一看Yakovenko等在1997年用美国真实税收情况估计收入分布曲线的实证研究。
美国收入分布的累积概率图,
来源:Yakovenko(2001)
其中,横坐标是收入值,纵坐标是累积概率分布,也就是收入大于横坐标x人口比例。我们可以看出,收入分布曲线明显的分成了两段,第一段为左边的那段弧形曲线,第二段为右下方的直线。由于上图坐标为双对数,所以直线段是幂律的,即Pareto分布,而第一段的曲线不是幂律的,作者用小图表示出在横坐标不取对数,纵坐标取对数的情形,发现该曲线在半对数坐标下变成了直线,也就是说收入在低端部分是指数分布。
五、稳定分布拟合
(一)稳定分布参数估计
本章采用JohnNolan所提供的STABLE4.0软件。JohnNolan在2002年给出了对大样本数据进行处理的程序,可以通过程序拟合以下四个参数:α,β,δ,γ他们的取值范围为:α∈(0,2]β∈[-1,1]δ∈(-∞,+∞)γ∈(0,+∞)这些参数决定了密度曲线f(x)的形状和位置。其中δ为位置参数,决定了曲线中心的位置,是一个平移参数;γ为尺度参数,是曲线在水平方向上的缩放参数;而α,β这两个关键参数分别叫做稳定指数和偏度参数,决定了概率密度曲线的陡峭程度和偏斜程度。
运行STABLE4.0程序,利用程序的第7项(forfittingasamplewithstableparameters),得到收益数据的基本统计信息;并进一步选择估计参数的方法(本文选择了极大似然估计),估计出稳定分布的四个参数:α、β、δ、γ;同时,由稳定分布的性质α=2,β=0时,稳定分布呈现正态分布。如下:
42 0 0 1 0.995416 0.999993
由表二,对比稳定分布、正态分布与经验分布函数,可以看出稳定分布具有更优的拟合效果,尤其在众数附近(表中加深区域),这也反映了稳定分布的尖峰特性;同时,从尾部数据看,稳定分布的数据相比正态分布的数据显示出了厚尾性,更好的刻画的极端事件的分布特点。
因此,本文引入稳定分布来拟合极端事件的分布是合适、可行的,并发现用稳定分布来拟合上证指数日收益数据的分布,更优于正态分布,更能反映出收益分布左偏、厚尾特性。
参考文献:
[1]田乃硕,徐秀丽,马占友著.离散时间排队论[M].北京:经济科学出版社,2008。
[2]王玉玲.基于稳定分布的中国股票市场VaR研究[D].武汉:武汉理工大学,2004。
[3]FamaF,RollR.Somepropertiesofsymmetricstabledistributions[J].JournaloftheAmericanStatisticalAssociation,1968,63:817-836。
[4]MalcolmH.D.KempExtremeevents—RobustPortfolioConstructioninthePresenceofFatTail[M].PublishedbyJohnWiley&Sons,Ltd.2011。
[5]MandelbrotB.Thevariationofcertainspeculativeprices[J].Journalofbusiness,1963:36:304-419。
[6]PressS.Estimationinunivariateandmultivariatestabledistributions[J].JournaloftheAmericanStatisticalAssociation,1972,67(340):842-847。
[7]Reiss,R.D.Thomas,M.Statisticalanalysisofextremevalues[M].PublishedbyBirkhuserBasel,2007。
[8]Stabledistribution:http://academic2.american.edu/~jpnolan/stable/stable.html。