论文部分内容阅读
摘 要:针对信息披露质量评价中常用的主成分分析方法,本文指出了其计算依赖于样本协方差矩阵,而协方差矩阵的估计容易受到异常值的影响。针对该问题,本文提出了将“稳健协方差方法”引入到信息披露质量评估中,并对2015年部分上市公司的信息披露质量进行了综合分析和对比,展示了新方法的稳健性。
关键词:主成分分析;稳健协方差;上市公司信息披露;信息披露质量
中图分类号: F830.33 文献标识码: A 文章编号:1674-2265(2015)12-0003-06
一、 引言
信息披露是上市公司所必须履行的义务,在当前审核制逐步转向注册制的过程中,它变得更加重要:大量投资者依靠披露的信息进行投资决策;监管部门依靠披露的信息来行动;关联企业依靠披露的信息来进行交易。那么这些上市公司的披露行为是否符合规范?公司之间披露行为有无差异?披露是否符合证监会相关办法中的各项要求?披露的信息是否具备完整性、有效性、真实性?这一系列问题的回答,都需要对信息披露质量进行系统的、客观的、量化的研究。
针对该问题,欧美资本市场的研究相对成熟,这得益于相关监管政策的稳定和连续;而国内的学者也对大陆资本市场的信息披露进行了多角度的研究:学者们最早是关注 “信息披露”与其他经济要素的关系,通过已经公布信息披露的评价数据(这些数据大多数来自于监管机构或者证券交易所),用计量的方法来分析,例如汪炜、蒋高峰(2004)研究了信息披露与资本成本的关系,曾颖、陆正飞(2006)研究了信息披露与股权融资成本的关系,其他一些学者研究信息披露质量与市场流动性、公司财务状况的关系等;后续一些学者提出了信息披露的评价方法,这些方法大多基于主成分分析,通过主成分分析获得主成分,然后将结果用于计量研究。
本文主要关注信息披露质量的评价和度量问题,即通过何种手段能够将一家公司的信息披露质量进行客观评价,最后给出了相应的分数,使投资者和监管者对披露质量有一个直观的认识。
任何对信息披露质量进行评价的方法都不能脱离法律法规,上市公司信息披露所遵循的法律法规包括如下几类:
第一类是《中华人民共和国证券法》(以下称《证券法》),该法于1998年12月29日经第九届全国人民代表大会常务委员会第六次会议通过,并于2004年8月28 日、2005年10 月27日、2013 年6 月29日进行了修订。《证券法》在第三章第三节中对“持续信息公开”进行了详细规定,包括发行人、上市公司、IPO、中期报告、年度报告、重大事项等,这些是上市公司所必须承担的法律义务。
第二类是中国证监会发布的《上市公司信息披露管理办法》以及细化的内容与格式要求,包括:《公开发行证券的公司信息披露内容与格式准则第2号—年度报告的内容与格式》,《公开发行证券的公司信息披露内容与格式准则第3号—半年度报告的内容与格式》和《公开发行证券的公司信息披露编报规则第13号—季度报告内容与格式特别规定》,这些办法和规定详细规定了上市公司信息披露所遵循的细节要求,这是信息披露质量评估的重要依据。
第三类是上海证券交易所和深圳证券交易所发布的披露要求,主要是进一步完善证监会的相关办法和规定。
笔者从2012年开始,用主成分分析和熵模型进行保险公司信息披露质量评估,并在一定程度上回答了“信息披露质量如何”这个核心问题。但当我们使用同样的方法来研究上市公司信息披露质量时,发现了一些问题,其中最核心的就是方法的稳定性(鲁棒性),而该问题的产生有两方面原因:第一是因为上市公司的数量庞大,且体量(无论是总资产还是盈利等)的方差变化大;第二是资本市场的迅速发展产生很多在某些指标上存在“异常”(明显与其他公司不同)的上市企业。这两个原因都导致信息披露的单项指标与整体相比产生很大的差异。
评价方法来源于统计学。从数学角度看,任何一种统计评价方法都是多维指标空间到一维空间的映射,例如信用评价、信息披露质量评价、竞争力评价等。不同的评价方法可能导致样本(例如本文的上市公司)在得分方面有所不同,那么具体哪种方法更有效?理论上,我们自然要求这种评价的“数学映射”具有连续性,即在样本数量发生小比例变化的时候,其映射的结果应该不会发生大的偏差,即最终得分不会发生太大变化。著名评级公司穆迪在使用KMV模型(基于默顿1974年的文章)进行信用评价时,最早注意到了这点,通过异常反馈访谈来保证最后的结果稳健性。
事实上我们在研究过程中已经注意到,在很多评价方法中,直接使用主成分分析所带来的一些问题,最直接的就是导致公司历年排名的剧烈波动,而通常情况下,一家公司经营稳健,其所要评价的方面应该在相邻年度之间有一定的稳定性,具体可以参考表7我们所模拟做的试验。
之所以出现此现象,是因为主成分分析方法的核心依赖于协方差矩阵的计算,数学上已经证明,协方差矩阵对异常值的变化非常敏感,这就导致结果会产生较大的波动。这样的波动使得结果的评价不稳定,即当加入一个新样本的时候,很有可能相互之间的位置会发生变化,最终的得分结果与实际信息披露质量产生偏差。
同时,因为每年的样本变化,使得时间角度的比较变得困难,相同的公司因为不同年份里其他公司的数据异常会得到差异较大的分数,无法真实地反映公司信息披露质量的变化情况。从总体上看,也使得公司平均的信息披露质量依赖于每年参与评价的样本数量和数值。
为了能够真实地反映信息披露质量的变化情况,我们必须寻找一种稳定的评价方法,使其对异常数据和样本变化不敏感,这就是我们进行本研究的核心。本文第二部分介绍了稳健协方差的方法和原理,第三部分介绍了稳健的评价过程,第四部分以实证的方式给出了方法应用结果以及该方法的稳健性说明,第五部分给出了相应的结论。
二、基于稳健协方差的评价方法 (一)主成分分析的问题
主成分分析是常用的评价方法之一,除了作为主要的评价框架外,它还可以用来辅助其他方法发现关键的影响指标。具体来说,设对某一事物的研究涉及p个指标,分别用[X1,X2,…,Xp]表示,他们组成随机向量[X=X1,X2,…,Xp],设其均值为[μ],协方差矩阵[Σ],主成分分析即寻找新的综合变量Y,它为原来指标的线性组合:
[Y1=μ11X1+…+u1pXp…Yp=up1X1+…+uppXp]
这样线性变化存在无数可能,主成分分析从Y的统计特性出发,要求[Yi]方差尽可能大,并相互独立,由此得到一个理想的变化,对变换后的综合指标,按方差进行排序得到[Y1,Y2,…,Yp],由于按照方差贡献度排列,只需要很少的综合指标就可以达到总体方差的90%左右,这样研究该事物就只需要关心有限个综合指标。
从原理上主成分分析是一个适合用于评价的方法,但是具体计算的时候需要使用样本来计算所需要的线性变化,获得主成分,一个简单的过程是:先计算样本的协方差,然后由协方差计算特征值和对应的特征向量,按照特征值排列,对应的特征向量就给出了对应主成分所需要的线性变化。这其中最关键的就是样本协方差的计算。
在数学领域,很早就有学者发现了样本协方差和样本均值的计算对异常值非常敏感,部分学者还对其敏感程度进行了数学分析。
为了直观说明这一点,我们用两组数据做一个试验,该两组样本数据为二维正态分布随机生成,均值为1,方差为1,相关系数为0.6(协方差也为0.6),接下来随机为每组改变一定数量的样本值,改变后的数值为原来的2倍,结果如表1:
表1:协方差计算对异常值的敏感性说明
[改变数值的数量\&样本值变化(增加)百分比\&协方差变化百分比\&1\&100%\&103%\&2\&100%\&137%\&5\&100%\&216%\&10\&100%\&732%\&]
正是因为协方差计算对异常值非常敏感,则当用于评估的样本中出现差异较大的个体的时候将会导致协方差发生巨大变化,从而也导致基于协方差估计的主成分提取产生较大变化,最终会使得公司的评估结果产生较大偏移。更重要的是,使得不同年份之间的比较无法客观进行,而变成依赖于不同年份的样本选择,这是基于主成分分析的评估方法都必须要解决的问题。
(二)稳健协方差估计
协方差的敏感性问题,大体有两种解决途径,一种是卢梭(Rousseeuw)提出的最小协方差矩阵估计(MCD, Minimum Covariance Determinant),该方法直接有效,后续发展了许多加快效率的办法;另外一种是基于投影追踪(Projection pursuit),针对指标维数超过样本数量以及稀疏矩阵的情形。
考虑到我们所面对问题的初始指标为217个,低于公司样本数量(700家搜集数据的公司),且整体上由于数据采集并非依赖于机器统计,并未出现稀疏矩阵,且计算量在可以接受范围,我们选择了MCD方法,从两种方法对比中,实际上MCD方法更稳定一些,这是由于信息披露质量的所有指标侧重点较分散,在进行投影追踪时选择一个合适的超平面其实并不容易做到。
MCD的一个问题是计算量较大,但实际上对上市公司信息披露质量来说,这是可以忽略不计的,在普通计算机上也可以在半小时内完成,而借助快速MCD算法(FAST-MCD),该时间可以大大缩短。从这个角度来说我们认为经济管理以及金融中可以充分利用该方法以获得稳健的协方差估计。
MCD方法实际上是利用迭代思想,不断计算离群点和中心的马氏距离,最终找到一个稳定的中心群点,形成所需要的协方差估计,具体过程为:
第一步,考虑一个矩阵[Xn×p],从中随机抽取h个样本(对于选择的600家公司,我们选取h=512),计算这些样本的均值和协方差矩阵,作为初始值,记为[T1,S1]。
第二步,计算全部n个样本到第1个初始中心[T1,S1]的马氏距离,并选取出其中最小的h个样本点:
[d1i=xi-T1S-11(xi-T1)]
第三步,由上述新的h个样本形成新的均值和协方差矩阵[T2,S2],然后重复第一步和第二步的过程。
迭代终止:当[DetSm=Det(Sm-1)],此时再通过最后的协方差矩阵进行加权计算得到稳健的协方差估计,卢梭(1984)给出了迭代收敛的证明过程。
该过程有明显的几何意义,即不断寻找包含h个样本的超椭球体,使其到样本中心距离最短,这样椭球体之外的点就是例外点(Outlier),这些例外点可以用于经济金融的进一步研究使用。
为了说明其稳健性,我们对表1试验的数据应用稳健协方差估计,结果如表2所示,可以看到,其协方差非常稳健,大幅度降低了异常值的干扰。
表2:稳健协方差估计的结果
[改变数值的数量\&样本值变化(增加)百分比\&协方差变化百分比\&1\&100%\&0.3%\&2\&100%\&1.6%\&5\&100%\&7.9%\&10\&100%\&12%\&]
(三)稳健信息披露评估方法
任何基于指标的评价方法都面临一个核心问题,即指标的选取。尽管通过专家方式、管理经验以及文献建议等,可以确定很多指标,但显然把所有指标都考虑进排序本身有很多困难,例如权重就无法确定。如果通过主观方式来确定权重,则又会遭到质疑,毕竟缺少量化的支持和内在关系的验证。
一个较好的方式就是通过主成分分析将初始指标进行筛选,选取那些真正能够“衡量”的指标,除了减少运算量外,还自动提供了一种直接的量化权重,即主成分中的“方差贡献率”。
在我们的评估方法中,我们用稳健协方差的估计来获得信息披露的关键影响指标,然后利用信息论中的“熵模型”获得最终的评估方法。 三、评估方法与过程
评估过程包括两个步骤:第一个步骤是用稳健主成分提取关键性指标,第二个步骤是用熵模型进行评估。
(一)用稳健主成分分析进行指标选取
指标选取基于《证券法》、《管理办法》以及三个报告的内容与格式要求,具体分为如下几类:基础信息类,包括1个sheet,含有12个指标;该类主要记录公司的基础信息以及经过大数据抓取的信息。
临时报告类,包括2个sheet,含有17个指标及1个股价信息表;这里记录上市公司披露的临时报告的度量指标,并包括基于股价数据进行的统计指标(例如市场理解时间)。
年报信息类,包括9个sheet,每个sheet含9到67个指标不等,对上市公司的年度进行度量的指标。
半年报信息类, 8个sheet,每个sheet含9到67个指标不等,对上市公司的年度进行度量的指标。
季度信息类,第一季度与第三季度类,每类3个sheet,每个sheet从9到21个指标不等,对上市公司的年度进行度量的指标。
表3给出了前三类的指标与分指标(完整的度量表略)。
我们通过稳健主成分,提取了如下一些指标,各类指标所涵盖的方差贡献率如表4所示。
表4:各类选取指标的方差贡献率
[指标类\&数量\&贡献率\&基础信息类\&5\&90.2%\&临时报告类\&7\&91.3%\&年度报告类\&18\&90.6%\&半年报告类\&9\&90.2%\&季度报告类\&8\&92.3%\&]
尽管该指标选取结果仍然较多,但已经比采取固定指标方式的数量少很多,这是下一步进行熵模型的计算基础。
(二)用熵模型进行质量评估
设X为离散随机变量,取值范围为[x1,x2,…,xn] ,概率质量函数为[pxi,i=1,…,n],则该随机变量的信息熵H(X)定义为:
[HX=E-ln Px=i=0n-p(xi)ln p(xi)]
为了应用熵概念进行评价,需要逐步进行指标的熵化,并计算各家公司对应的加权熵和,具体如下:
第一步:根据初始矩阵,计算第j项指标中,第i家公司所占有的比重,公式如下:
[pij=tijitij]
第二步:计算第j项指标的熵值,公式如下:
[Ej=-ipij×ln (pij)]
第三步:计算第j项指标的权重,公式如下:
[ωj=Ej∑Ej]
第四步:根据权重,计算每个公司的信息披露总体质量,用k表示:
[ki=jωjpij]
四、结果稳健性说明
我们搜集的数据包括700家公司样本。为了说明方法的稳健性,我们以600家公司为基本样本,从中随机抽取30家公司,作为锚定样本,这30家公司在总体公司的排名如表5所示。
表5:30个随机抽取的公司分数和排名
[公司名称\&分数\&排名\&湖北博盈投资股份有限公司\&89.50427\&57\&佛山市国星光电股份有限公司\&87.84584\&90\&广东金莱特电器股份有限公司\&85.81667\&112\&南方黑芝麻集团股份有限公司\&84.99278\&132\&北京顺鑫农业股份有限公司\&84.83816\&145\&中航地产股份有限公司\&84.30506\&198\&东北电气发展股份有限公司\&84.21528\&212\&永辉超市股份有限公司\&84.09538\&243\&袁隆平农业高科技股份有限公司 \&83.33567\&252\&惠州中京电子科技股份有限公司\&83.13057\&260\&青岛双星股份有限公司\&82.89865\&271\&山东恒邦冶炼股份有限公司\&82.54368\&278\&广东蓉胜超微线材股份有限公司\&81.594\&301\&重庆桐君阁股份有限公司\&81.12774\&309\&吉林亚泰(集团)股份有限公司\&81.05343\&328\&保定天威保变电气股份有限公司\&80.28648\&345\&国药集团一致药业股份有限公司\&79.72621\&361\&浙江步森服饰股份有限公司\&79.26323\&380\&国电南瑞科技股份有限公司\&78.67234\&393\&西安通源石油科技股份有限公司\&74.17404\&412\&罗顿发展股份有限公司\&73.58232\&423\&招商证券股份有限公司\&73.4736\&443\&山东博汇纸业股份有限公司\&70.79694\&457\&永清环保股份有限公司\&67.03822\&469\&湖南博云新材料股份有限公司\&66.96247\&480\&广西五洲交通股份有限公司\&66.44988\&492\&北京赛迪传媒投资股份有限公司\&65.43008\&501\&吉林成城集团股份有限公司\&65.25448\&521\&北京银行股份有限公司\&62.27281\&559\&中国民生银行股份有限公司\&55.16279\&589\&]
如果针对600家样本,使用传统的主成分分析方法,所提取的主成分如下:
表6:传统主成分的主成分数量及方差贡献率
[指标类\&数量\&贡献率\&基础信息类\&7\&89.6%\&临时报告类\&9\&90.6%\&年度报告类\&20\&91.0%\&半年报告类\&8\&88.7%\&季度报告类\&9\&91.8%\&]
与稳健协方差方法的主成分分析比较,可以发现,所提取的指标相对要多一些,这是由于普通主成分的协方差矩阵计算受到多样本的干扰,需要更多指标才能覆盖目标方差。
我们对上述基础样本分别做“减少10家”、“减少50家”、“增加10家”、“增加50家”的操作,然后看锚定的30家公司分数有何变化。结果如表7所示。 从表7可以看到,在传统方法下,10家样本的增加和减少,已经引起了数值一定幅度的变化,而当增加或减小50家样本时,得分出现剧烈变化,相对位置也出现较大幅度调整,并不具备评价所要求的稳健性。
作为对比,我们来看一下新的稳健评价方法的实证结果。首先我们对剩余的570家公司,随机去除10家、50家、100家公司,然后再看其分数变化。具体如表7所示。
从表7可以清晰地看到,去除公司导致整体分数有所增加,但总体保持稳健:当去除10家公司时,几乎对得分没有影响,非常微小,更不会影响公司排名;而当去除50家公司时,公司的得分出现小幅度变化,但仍然能够保持稳健;即使当去除100家公司时,尽管分数出现了较大变化(如中国民生银行从55.16变化到57),但仍然能够保持相对排名。该结果充分说明对于公司减少的情况,我们的方法能够保持稳健,符合评价方法的固有要求。
接下来对600家公司样本,分别增加10家、50家、100家公司,然后再看其分数变化。结果如表7所示。从表7可以看到,增加公司数量导致大部分公司分数下降,但总体保持稳健:当去除10家公司时,虽然比减少公司数量导致的变化大,但仍然非常微小,也不会影响公司排名;去除50家公司时,公司的得分出现小幅度变化,依然能够保持稳健;当去除100家公司时,部分公司分数出现了较大变化,但综观全局,仍然能够保持相对位置。该结果也说明对于公司增加的情况,我们的方法也能够保持稳健。
五、结论与说明
传统的信息披露质量评估方法存在着依赖样本、受异常值影响以及无法纵向比较的问题,而我们基于最小协方差矩阵的稳健方法能够很好地避免异常干扰,通过该方法所提取的主成分在应用中保持稳健。
具体来说,无论是公司数量增加(13%以内),还是公司数量减小(13%以内),该稳健方法都能够保持分数较小幅度变化,保持相应的相对位置,这对于信息披露质量评估以及其他评价方法都具有重要的参考意义。
参考文献:
[1]Grubel R.A,1988.Minimal characterization of the covariance matrix,Metrika,35.
[2]Li G,Chen Z.1982. Projection-pursuit approach to robust dispersion matrix and principle components:primary theory and montecarlo,Journal of American statistical association,80.
[3]Peter J. Rousseuw.1984. Least median of squares regression,Journal of the American Statistical Association,79.
[4]汪炜,蒋高峰.信息披露、透明度与资本成本[J].经济研究,2004,(7).
[5]曾颖,陆正飞.信息披露与股权融资成本[J].经济研究,2006,(2).
[6]吕惠聪.大股东控制、审计监督与信息披露质量—来自深圳上市公司的经验证据[J].经济管理,2006,(22).
[7]陈千里.信息披露质量与市场流动性[J].南方经济,2007,(10).
[8]王斌,梁欣欣.公司治理、财务状况与信息披露质量—来自深交所的经验证据[J].会计研究,2008,(3).
[9]张程睿.公司信息披露质量对投资者交易行为的影响—基于对深圳上市公司的经验分析[J].南方经济,2008,(4).
[10]王茜.信息披露质量与公司业绩的关系研究[J].财经理论与实践,2008,(5).
[11]张宁.保险公司2013年度信息披露质量评估研究[J].保险研究,2013,(7).
(责任编辑 耿 欣;校对 CX,GX)
关键词:主成分分析;稳健协方差;上市公司信息披露;信息披露质量
中图分类号: F830.33 文献标识码: A 文章编号:1674-2265(2015)12-0003-06
一、 引言
信息披露是上市公司所必须履行的义务,在当前审核制逐步转向注册制的过程中,它变得更加重要:大量投资者依靠披露的信息进行投资决策;监管部门依靠披露的信息来行动;关联企业依靠披露的信息来进行交易。那么这些上市公司的披露行为是否符合规范?公司之间披露行为有无差异?披露是否符合证监会相关办法中的各项要求?披露的信息是否具备完整性、有效性、真实性?这一系列问题的回答,都需要对信息披露质量进行系统的、客观的、量化的研究。
针对该问题,欧美资本市场的研究相对成熟,这得益于相关监管政策的稳定和连续;而国内的学者也对大陆资本市场的信息披露进行了多角度的研究:学者们最早是关注 “信息披露”与其他经济要素的关系,通过已经公布信息披露的评价数据(这些数据大多数来自于监管机构或者证券交易所),用计量的方法来分析,例如汪炜、蒋高峰(2004)研究了信息披露与资本成本的关系,曾颖、陆正飞(2006)研究了信息披露与股权融资成本的关系,其他一些学者研究信息披露质量与市场流动性、公司财务状况的关系等;后续一些学者提出了信息披露的评价方法,这些方法大多基于主成分分析,通过主成分分析获得主成分,然后将结果用于计量研究。
本文主要关注信息披露质量的评价和度量问题,即通过何种手段能够将一家公司的信息披露质量进行客观评价,最后给出了相应的分数,使投资者和监管者对披露质量有一个直观的认识。
任何对信息披露质量进行评价的方法都不能脱离法律法规,上市公司信息披露所遵循的法律法规包括如下几类:
第一类是《中华人民共和国证券法》(以下称《证券法》),该法于1998年12月29日经第九届全国人民代表大会常务委员会第六次会议通过,并于2004年8月28 日、2005年10 月27日、2013 年6 月29日进行了修订。《证券法》在第三章第三节中对“持续信息公开”进行了详细规定,包括发行人、上市公司、IPO、中期报告、年度报告、重大事项等,这些是上市公司所必须承担的法律义务。
第二类是中国证监会发布的《上市公司信息披露管理办法》以及细化的内容与格式要求,包括:《公开发行证券的公司信息披露内容与格式准则第2号—年度报告的内容与格式》,《公开发行证券的公司信息披露内容与格式准则第3号—半年度报告的内容与格式》和《公开发行证券的公司信息披露编报规则第13号—季度报告内容与格式特别规定》,这些办法和规定详细规定了上市公司信息披露所遵循的细节要求,这是信息披露质量评估的重要依据。
第三类是上海证券交易所和深圳证券交易所发布的披露要求,主要是进一步完善证监会的相关办法和规定。
笔者从2012年开始,用主成分分析和熵模型进行保险公司信息披露质量评估,并在一定程度上回答了“信息披露质量如何”这个核心问题。但当我们使用同样的方法来研究上市公司信息披露质量时,发现了一些问题,其中最核心的就是方法的稳定性(鲁棒性),而该问题的产生有两方面原因:第一是因为上市公司的数量庞大,且体量(无论是总资产还是盈利等)的方差变化大;第二是资本市场的迅速发展产生很多在某些指标上存在“异常”(明显与其他公司不同)的上市企业。这两个原因都导致信息披露的单项指标与整体相比产生很大的差异。
评价方法来源于统计学。从数学角度看,任何一种统计评价方法都是多维指标空间到一维空间的映射,例如信用评价、信息披露质量评价、竞争力评价等。不同的评价方法可能导致样本(例如本文的上市公司)在得分方面有所不同,那么具体哪种方法更有效?理论上,我们自然要求这种评价的“数学映射”具有连续性,即在样本数量发生小比例变化的时候,其映射的结果应该不会发生大的偏差,即最终得分不会发生太大变化。著名评级公司穆迪在使用KMV模型(基于默顿1974年的文章)进行信用评价时,最早注意到了这点,通过异常反馈访谈来保证最后的结果稳健性。
事实上我们在研究过程中已经注意到,在很多评价方法中,直接使用主成分分析所带来的一些问题,最直接的就是导致公司历年排名的剧烈波动,而通常情况下,一家公司经营稳健,其所要评价的方面应该在相邻年度之间有一定的稳定性,具体可以参考表7我们所模拟做的试验。
之所以出现此现象,是因为主成分分析方法的核心依赖于协方差矩阵的计算,数学上已经证明,协方差矩阵对异常值的变化非常敏感,这就导致结果会产生较大的波动。这样的波动使得结果的评价不稳定,即当加入一个新样本的时候,很有可能相互之间的位置会发生变化,最终的得分结果与实际信息披露质量产生偏差。
同时,因为每年的样本变化,使得时间角度的比较变得困难,相同的公司因为不同年份里其他公司的数据异常会得到差异较大的分数,无法真实地反映公司信息披露质量的变化情况。从总体上看,也使得公司平均的信息披露质量依赖于每年参与评价的样本数量和数值。
为了能够真实地反映信息披露质量的变化情况,我们必须寻找一种稳定的评价方法,使其对异常数据和样本变化不敏感,这就是我们进行本研究的核心。本文第二部分介绍了稳健协方差的方法和原理,第三部分介绍了稳健的评价过程,第四部分以实证的方式给出了方法应用结果以及该方法的稳健性说明,第五部分给出了相应的结论。
二、基于稳健协方差的评价方法 (一)主成分分析的问题
主成分分析是常用的评价方法之一,除了作为主要的评价框架外,它还可以用来辅助其他方法发现关键的影响指标。具体来说,设对某一事物的研究涉及p个指标,分别用[X1,X2,…,Xp]表示,他们组成随机向量[X=X1,X2,…,Xp],设其均值为[μ],协方差矩阵[Σ],主成分分析即寻找新的综合变量Y,它为原来指标的线性组合:
[Y1=μ11X1+…+u1pXp…Yp=up1X1+…+uppXp]
这样线性变化存在无数可能,主成分分析从Y的统计特性出发,要求[Yi]方差尽可能大,并相互独立,由此得到一个理想的变化,对变换后的综合指标,按方差进行排序得到[Y1,Y2,…,Yp],由于按照方差贡献度排列,只需要很少的综合指标就可以达到总体方差的90%左右,这样研究该事物就只需要关心有限个综合指标。
从原理上主成分分析是一个适合用于评价的方法,但是具体计算的时候需要使用样本来计算所需要的线性变化,获得主成分,一个简单的过程是:先计算样本的协方差,然后由协方差计算特征值和对应的特征向量,按照特征值排列,对应的特征向量就给出了对应主成分所需要的线性变化。这其中最关键的就是样本协方差的计算。
在数学领域,很早就有学者发现了样本协方差和样本均值的计算对异常值非常敏感,部分学者还对其敏感程度进行了数学分析。
为了直观说明这一点,我们用两组数据做一个试验,该两组样本数据为二维正态分布随机生成,均值为1,方差为1,相关系数为0.6(协方差也为0.6),接下来随机为每组改变一定数量的样本值,改变后的数值为原来的2倍,结果如表1:
表1:协方差计算对异常值的敏感性说明
[改变数值的数量\&样本值变化(增加)百分比\&协方差变化百分比\&1\&100%\&103%\&2\&100%\&137%\&5\&100%\&216%\&10\&100%\&732%\&]
正是因为协方差计算对异常值非常敏感,则当用于评估的样本中出现差异较大的个体的时候将会导致协方差发生巨大变化,从而也导致基于协方差估计的主成分提取产生较大变化,最终会使得公司的评估结果产生较大偏移。更重要的是,使得不同年份之间的比较无法客观进行,而变成依赖于不同年份的样本选择,这是基于主成分分析的评估方法都必须要解决的问题。
(二)稳健协方差估计
协方差的敏感性问题,大体有两种解决途径,一种是卢梭(Rousseeuw)提出的最小协方差矩阵估计(MCD, Minimum Covariance Determinant),该方法直接有效,后续发展了许多加快效率的办法;另外一种是基于投影追踪(Projection pursuit),针对指标维数超过样本数量以及稀疏矩阵的情形。
考虑到我们所面对问题的初始指标为217个,低于公司样本数量(700家搜集数据的公司),且整体上由于数据采集并非依赖于机器统计,并未出现稀疏矩阵,且计算量在可以接受范围,我们选择了MCD方法,从两种方法对比中,实际上MCD方法更稳定一些,这是由于信息披露质量的所有指标侧重点较分散,在进行投影追踪时选择一个合适的超平面其实并不容易做到。
MCD的一个问题是计算量较大,但实际上对上市公司信息披露质量来说,这是可以忽略不计的,在普通计算机上也可以在半小时内完成,而借助快速MCD算法(FAST-MCD),该时间可以大大缩短。从这个角度来说我们认为经济管理以及金融中可以充分利用该方法以获得稳健的协方差估计。
MCD方法实际上是利用迭代思想,不断计算离群点和中心的马氏距离,最终找到一个稳定的中心群点,形成所需要的协方差估计,具体过程为:
第一步,考虑一个矩阵[Xn×p],从中随机抽取h个样本(对于选择的600家公司,我们选取h=512),计算这些样本的均值和协方差矩阵,作为初始值,记为[T1,S1]。
第二步,计算全部n个样本到第1个初始中心[T1,S1]的马氏距离,并选取出其中最小的h个样本点:
[d1i=xi-T1S-11(xi-T1)]
第三步,由上述新的h个样本形成新的均值和协方差矩阵[T2,S2],然后重复第一步和第二步的过程。
迭代终止:当[DetSm=Det(Sm-1)],此时再通过最后的协方差矩阵进行加权计算得到稳健的协方差估计,卢梭(1984)给出了迭代收敛的证明过程。
该过程有明显的几何意义,即不断寻找包含h个样本的超椭球体,使其到样本中心距离最短,这样椭球体之外的点就是例外点(Outlier),这些例外点可以用于经济金融的进一步研究使用。
为了说明其稳健性,我们对表1试验的数据应用稳健协方差估计,结果如表2所示,可以看到,其协方差非常稳健,大幅度降低了异常值的干扰。
表2:稳健协方差估计的结果
[改变数值的数量\&样本值变化(增加)百分比\&协方差变化百分比\&1\&100%\&0.3%\&2\&100%\&1.6%\&5\&100%\&7.9%\&10\&100%\&12%\&]
(三)稳健信息披露评估方法
任何基于指标的评价方法都面临一个核心问题,即指标的选取。尽管通过专家方式、管理经验以及文献建议等,可以确定很多指标,但显然把所有指标都考虑进排序本身有很多困难,例如权重就无法确定。如果通过主观方式来确定权重,则又会遭到质疑,毕竟缺少量化的支持和内在关系的验证。
一个较好的方式就是通过主成分分析将初始指标进行筛选,选取那些真正能够“衡量”的指标,除了减少运算量外,还自动提供了一种直接的量化权重,即主成分中的“方差贡献率”。
在我们的评估方法中,我们用稳健协方差的估计来获得信息披露的关键影响指标,然后利用信息论中的“熵模型”获得最终的评估方法。 三、评估方法与过程
评估过程包括两个步骤:第一个步骤是用稳健主成分提取关键性指标,第二个步骤是用熵模型进行评估。
(一)用稳健主成分分析进行指标选取
指标选取基于《证券法》、《管理办法》以及三个报告的内容与格式要求,具体分为如下几类:基础信息类,包括1个sheet,含有12个指标;该类主要记录公司的基础信息以及经过大数据抓取的信息。
临时报告类,包括2个sheet,含有17个指标及1个股价信息表;这里记录上市公司披露的临时报告的度量指标,并包括基于股价数据进行的统计指标(例如市场理解时间)。
年报信息类,包括9个sheet,每个sheet含9到67个指标不等,对上市公司的年度进行度量的指标。
半年报信息类, 8个sheet,每个sheet含9到67个指标不等,对上市公司的年度进行度量的指标。
季度信息类,第一季度与第三季度类,每类3个sheet,每个sheet从9到21个指标不等,对上市公司的年度进行度量的指标。
表3给出了前三类的指标与分指标(完整的度量表略)。
我们通过稳健主成分,提取了如下一些指标,各类指标所涵盖的方差贡献率如表4所示。
表4:各类选取指标的方差贡献率
[指标类\&数量\&贡献率\&基础信息类\&5\&90.2%\&临时报告类\&7\&91.3%\&年度报告类\&18\&90.6%\&半年报告类\&9\&90.2%\&季度报告类\&8\&92.3%\&]
尽管该指标选取结果仍然较多,但已经比采取固定指标方式的数量少很多,这是下一步进行熵模型的计算基础。
(二)用熵模型进行质量评估
设X为离散随机变量,取值范围为[x1,x2,…,xn] ,概率质量函数为[pxi,i=1,…,n],则该随机变量的信息熵H(X)定义为:
[HX=E-ln Px=i=0n-p(xi)ln p(xi)]
为了应用熵概念进行评价,需要逐步进行指标的熵化,并计算各家公司对应的加权熵和,具体如下:
第一步:根据初始矩阵,计算第j项指标中,第i家公司所占有的比重,公式如下:
[pij=tijitij]
第二步:计算第j项指标的熵值,公式如下:
[Ej=-ipij×ln (pij)]
第三步:计算第j项指标的权重,公式如下:
[ωj=Ej∑Ej]
第四步:根据权重,计算每个公司的信息披露总体质量,用k表示:
[ki=jωjpij]
四、结果稳健性说明
我们搜集的数据包括700家公司样本。为了说明方法的稳健性,我们以600家公司为基本样本,从中随机抽取30家公司,作为锚定样本,这30家公司在总体公司的排名如表5所示。
表5:30个随机抽取的公司分数和排名
[公司名称\&分数\&排名\&湖北博盈投资股份有限公司\&89.50427\&57\&佛山市国星光电股份有限公司\&87.84584\&90\&广东金莱特电器股份有限公司\&85.81667\&112\&南方黑芝麻集团股份有限公司\&84.99278\&132\&北京顺鑫农业股份有限公司\&84.83816\&145\&中航地产股份有限公司\&84.30506\&198\&东北电气发展股份有限公司\&84.21528\&212\&永辉超市股份有限公司\&84.09538\&243\&袁隆平农业高科技股份有限公司 \&83.33567\&252\&惠州中京电子科技股份有限公司\&83.13057\&260\&青岛双星股份有限公司\&82.89865\&271\&山东恒邦冶炼股份有限公司\&82.54368\&278\&广东蓉胜超微线材股份有限公司\&81.594\&301\&重庆桐君阁股份有限公司\&81.12774\&309\&吉林亚泰(集团)股份有限公司\&81.05343\&328\&保定天威保变电气股份有限公司\&80.28648\&345\&国药集团一致药业股份有限公司\&79.72621\&361\&浙江步森服饰股份有限公司\&79.26323\&380\&国电南瑞科技股份有限公司\&78.67234\&393\&西安通源石油科技股份有限公司\&74.17404\&412\&罗顿发展股份有限公司\&73.58232\&423\&招商证券股份有限公司\&73.4736\&443\&山东博汇纸业股份有限公司\&70.79694\&457\&永清环保股份有限公司\&67.03822\&469\&湖南博云新材料股份有限公司\&66.96247\&480\&广西五洲交通股份有限公司\&66.44988\&492\&北京赛迪传媒投资股份有限公司\&65.43008\&501\&吉林成城集团股份有限公司\&65.25448\&521\&北京银行股份有限公司\&62.27281\&559\&中国民生银行股份有限公司\&55.16279\&589\&]
如果针对600家样本,使用传统的主成分分析方法,所提取的主成分如下:
表6:传统主成分的主成分数量及方差贡献率
[指标类\&数量\&贡献率\&基础信息类\&7\&89.6%\&临时报告类\&9\&90.6%\&年度报告类\&20\&91.0%\&半年报告类\&8\&88.7%\&季度报告类\&9\&91.8%\&]
与稳健协方差方法的主成分分析比较,可以发现,所提取的指标相对要多一些,这是由于普通主成分的协方差矩阵计算受到多样本的干扰,需要更多指标才能覆盖目标方差。
我们对上述基础样本分别做“减少10家”、“减少50家”、“增加10家”、“增加50家”的操作,然后看锚定的30家公司分数有何变化。结果如表7所示。 从表7可以看到,在传统方法下,10家样本的增加和减少,已经引起了数值一定幅度的变化,而当增加或减小50家样本时,得分出现剧烈变化,相对位置也出现较大幅度调整,并不具备评价所要求的稳健性。
作为对比,我们来看一下新的稳健评价方法的实证结果。首先我们对剩余的570家公司,随机去除10家、50家、100家公司,然后再看其分数变化。具体如表7所示。
从表7可以清晰地看到,去除公司导致整体分数有所增加,但总体保持稳健:当去除10家公司时,几乎对得分没有影响,非常微小,更不会影响公司排名;而当去除50家公司时,公司的得分出现小幅度变化,但仍然能够保持稳健;即使当去除100家公司时,尽管分数出现了较大变化(如中国民生银行从55.16变化到57),但仍然能够保持相对排名。该结果充分说明对于公司减少的情况,我们的方法能够保持稳健,符合评价方法的固有要求。
接下来对600家公司样本,分别增加10家、50家、100家公司,然后再看其分数变化。结果如表7所示。从表7可以看到,增加公司数量导致大部分公司分数下降,但总体保持稳健:当去除10家公司时,虽然比减少公司数量导致的变化大,但仍然非常微小,也不会影响公司排名;去除50家公司时,公司的得分出现小幅度变化,依然能够保持稳健;当去除100家公司时,部分公司分数出现了较大变化,但综观全局,仍然能够保持相对位置。该结果也说明对于公司增加的情况,我们的方法也能够保持稳健。
五、结论与说明
传统的信息披露质量评估方法存在着依赖样本、受异常值影响以及无法纵向比较的问题,而我们基于最小协方差矩阵的稳健方法能够很好地避免异常干扰,通过该方法所提取的主成分在应用中保持稳健。
具体来说,无论是公司数量增加(13%以内),还是公司数量减小(13%以内),该稳健方法都能够保持分数较小幅度变化,保持相应的相对位置,这对于信息披露质量评估以及其他评价方法都具有重要的参考意义。
参考文献:
[1]Grubel R.A,1988.Minimal characterization of the covariance matrix,Metrika,35.
[2]Li G,Chen Z.1982. Projection-pursuit approach to robust dispersion matrix and principle components:primary theory and montecarlo,Journal of American statistical association,80.
[3]Peter J. Rousseuw.1984. Least median of squares regression,Journal of the American Statistical Association,79.
[4]汪炜,蒋高峰.信息披露、透明度与资本成本[J].经济研究,2004,(7).
[5]曾颖,陆正飞.信息披露与股权融资成本[J].经济研究,2006,(2).
[6]吕惠聪.大股东控制、审计监督与信息披露质量—来自深圳上市公司的经验证据[J].经济管理,2006,(22).
[7]陈千里.信息披露质量与市场流动性[J].南方经济,2007,(10).
[8]王斌,梁欣欣.公司治理、财务状况与信息披露质量—来自深交所的经验证据[J].会计研究,2008,(3).
[9]张程睿.公司信息披露质量对投资者交易行为的影响—基于对深圳上市公司的经验分析[J].南方经济,2008,(4).
[10]王茜.信息披露质量与公司业绩的关系研究[J].财经理论与实践,2008,(5).
[11]张宁.保险公司2013年度信息披露质量评估研究[J].保险研究,2013,(7).
(责任编辑 耿 欣;校对 CX,GX)