论文部分内容阅读
摘 要:本文利用数据挖掘中的主成分分析和聚类分析技术,考察了上市公司的经营业绩,并对其进行归类。具体采取了系统聚类和K-means聚类相结合的聚类方法,综合这两种方法的优缺点,以新疆板块的所有上市公司为样本,进行了实证分析,所得结果可以给各方面人士提供信息决策的依据。上市公司可根据聚类结果了解其自身经营管理的薄弱方面,针对这些有所重点的进行改进;而投资者则可以据此找出最优的公司,为其投资决策提供选择的依据。
关键词:经营业绩;主成分分析;系统聚类;K-means
一、引言
随着我国金融市场的不断发展,上市公司的数量也在逐年增加,2009年我国股票市场正式推出了创业板,为许多高科技的中小公司提供了一个筹融资的平台。在此同时,对于投资者来说,其投资股票的选择余地也变得更加的广泛。但是这么多公司,有的经营业绩好,有的经营业绩差。对投资者来说,如何区分出业绩较好的公司和业绩较差的公司,直接影响到其投资的成功率。因此,通过一定的方法对上市公司进行分类,显得比较重要。
在这一方面,国内很多的学者,在区分上市公司的财务状况时,使用的方法基本上是主成分分析和聚类分析这两种方法相结合。其中比较具有代表性的是,邓秀勤(1999),将聚类分析方法应用到股票市场的板块分析,它选取了每股收益、每股净资产、股东权益率、净资产收益率、净利润率等5个反应盈利能力的财务指标,进行系统聚类分析。但是这种做法,在指标的选择上有些不足,单单从盈利能力指标考虑,不能够很好的反映出上市公司的综合实力。周焯华等(2002),综合考虑行业因素和公司因素,选取了17个指标来考察上市公司的业绩,从而它在指标体系的选择上有一个比较好的改进,但是它在面对如此多的指标的时候,没有进行降维处理,而直接进行了聚类分析,是否所有的指标都发挥了一定的效力值得我们怀疑。陶冶等(2005),应用该方法对中小板的股票进行了投资价值的分析。谢思(2007),利用因子分析和聚类分析相结合的方法对金融类的上市公司进行了经营绩效的分析,这是对以前诸多方法的一个不错的改进。总结国内学者,对上市公司分类所用方法的一个共性,单单使用了系统聚类分析得出聚类结果。
而韩家炜(2006)指出,如果单纯的使用系统聚类这种方法,有个缺陷,系统聚类属于层次法的一种,它一旦一个步骤(合并或分裂)完成,它就不能被撤消。书中指出的另外一种方法,K-means则在类的数目的确定上过于主观性。考虑每种聚类方法各自的局限性和优势,建议在做聚类分析时,将凝聚法和K-means这两种方法结合起来,会达到一个更好的效果。
基于此,本文首先选取比较全面的财务指标,然后利用主成分分析和聚类分析相结合的方法来评价上市公司的业绩,进而对某一区域板块的所有上市公司进行分类。在聚类的过程中,本文首先通过系统聚类的方法确定分类的数目,然后在此类数目的基础上,利用 K-means方法进行再聚类。
二、 主成分分析和聚类分析
主成分分析的工作对象是高维定量变量形成的数据。在统计学中,主成分分析的主要作用是:在尽量减少原始信息损失的条件下,将高维问题转化为低维问题。其基本原理:统计学认为,变异的数据可以提供某种识辨信息,数据之间的变异越大,能够提供的识辨信息就越多。由于统计学通常采用方差来表示数据之间的变异大小,因此数据的方差越大,数据能够提供的识辨信息量就越大。在高维数据集中,各分量数据所提供的全部识辨信息量可以用各分量的方差之和来表示。一种较好的办法是利用原始数据库建立新的数据库,新数据库能够保持原始数据库的全部识辨信息,并且新数据库所含有的识辨信息能够较多地集中在少数几个分量上,这样我们利用这几个分量就可以在尽量减少原始信息损失的条件,将高维问题转化为低维问题。
聚类是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异,聚类是一种无指导的学习,不依赖预先定义的类和训练样本。聚类分析主要集中在基于距离的聚类分析。
聚类分析前首先要做的是对数据变量标准化,数据类型大致分为区间标度变量、二元变量、标称型、序数型和比例标度型变量、混合类型变量。而本文中用到的都是区间标度变量,区间标度变量是一个线性标度的连续度量。为了实现度量值的标准化,一种方法是将原来的度量值转换为无单位的值。我们用距离判断样本之间的相似程度,聚类分析算法有划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等,本文选取的方法是划分法中K-means法和层次法中的凝聚法。
划分方法是,给定一个含有n个对象的数据库,一个划分方法构建数据的k个划分,每个划分表示一个聚类,且k≤n。它将数据划分为k个组,同时满足如下的要求:(1)每个组至少包含一个对象;(2)每个对象必须属于且只属于一个组。给定k,即要构建划分的数目,划分方法首先创建一个初始划分。然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分。而k-means算法,是在该算法中,每个簇是利用该簇中的对象的平均值表示。
凝聚的方法,也称为自底向上的方法,一开始将每个对象作为单独的一个组,然后继续地合并相近的对象或组,直到所有的组合并为一个(层次的最上层),或者达到一个终止条件。
三、 数据的来源及指标说明
本文所选的样本是新疆板块所有A股上市公司,共34家,样本的财务数据均来自于其在上海证券交易所和深圳证券交易所公布的2009年年报。
所选取的指标变量共11个,包括总资产利润率(x1)、净资产利润率(x2)、每股收益(x3)、资产负债率(x4)、净资产收益率(x5)、总资产周转率(x6)、主营收入增长率(x7)、净利润增长率(x8)、每股净资产(x9)、每股公积金(x10)、每股未分配利润(x11)。
其中总资产利润率、净资产利润率、每股收益、净资产收益率反映了上市公司的盈利能力,属于正向指标;资产负债率反映了上市公司的偿债能力,属于适度指标;总资产周转率,反映了公司资产管理能力,属于正向指标;主营收入增长率、净利润增长率反映了公司的成长能力,属于正向指标。每股净资产、每股公积金、每股未分配利润,反映了公司的股本扩张能力,属于正向指标。
四、数据处理的过程及分析
我们首先对上市公司的这些财务指标数据,进行标准化处理。然后利用SAS软件,对这些数据进行主成分分析。图1 为主成分分析的运行结果,第1列为特征值情况,第4列为累积贡献率,前4个主成分的累积贡献率达到了83.07%,也就是说这4个主成分涵盖了原先指标的83.07%的信息,从而我们把原先11个指标降维成4个。
图2显示的是这4个主成分的载荷矩阵。可以看到,对主成分1影响较大的指标,有总资产利润率、净资产利润率、每股收益、净资产收益率,因此主成分1代表了公司的盈利能力;对主成分2影响较大的指标,有资产负债率、净利润增长率、主营收入增长率、每股公积金,因此主成分2代表了公司的成长能力;对主成分3影响较大的指标,有资产负债率、每股净资产、每股公积金,因此主成分3代表了公司的股本扩张能力;对主成分4影响较大的指标,是总资产周转率,因此主成分4代表了公司的资产管理能力。
我们根据每家公司各个主成分上的得分值分别对其进行排名,表1给出的是排名结果。
在以上主成分指标的基础上,我们对样本进行聚类分析,图3是通过系统聚类方法得到的谱系图,根据谱系图,我们可以确定聚类的数目。我们首先将该组样本分成6类。
在确定了类的数目后,我们通过K-means的方法,进行重新聚类,聚类结果如下:
第1类:国际实业、西部建设、青松建化、新疆众和
第2类:*ST汇通、*ST中葡、ST天宏
第3类:宏源证券、天山股份、天康生物、金风科技、特变电工、广汇股份
第4类:天山纺织
第5类:新中基、中泰化学、准油股份、北新路桥、新疆天业、啤酒花、天利高新、新农开发、天富热电、新赛股份、八一钢铁、友好集团
图3 系统聚类的谱系图
第6类:国统股份、伊力特、冠农股份、美克股份、*ST香梨、新疆城建、ST百花、中粮屯河
五、 聚类结果分析
我们对6类上市公司,分别求解了其类内的各财务指标均值。综合考察各财务指标均值后,分别在盈利能力,资产管理能力,成长能力和股本扩张能力4个方面,对其进行了排名(见表2),排名越靠前,表明该类公司在这方面的能力越强。
优质上市公司类:第1类和第3类,这两类上市公司,具有较好的盈利能力,资产管理的管理居于领先地位,且公司的成长性和扩展能力都是很强劲的。其中第3类上市公司的财务指标更加突出些,表现在其盈利能力和成长能力方面。而第1类上市公司在股本扩张能力方面,表现的更加突出。因此这两类上市公司是比较适合投资者关注的。
一般上市公司类:第5类和第6类,这两类上市公司,在总的上市公司中的比例是最高的,其各方面的财务指标处于所有上市公司中的一般水平。第5类上市公司在资产管理水平上比较具有优势,而第6类上市公司在成长性上具有一定的优势。
劣质上市公司类:第2类和第4类,两类加起来时为数不多的4家,这两类上市公司在盈利能力、成长性方面表现都很糟糕,可以看到第2类的3家上市公司,都是ST或者*ST公司,第4类中的天山纺织,如果继续这样差的经营业绩,很有可能被冠以ST。对于投资这类上市公司,投资者需谨慎。而该类上市公司管理者,则要注意改善自身的经营水平。
六、 总结
本文所采用的将系统聚类和k-means聚类相结合的方法对上市公司进行归类,在一定程度上,减少了类的数目确定上的过多主观性。但是系统聚类适合用于小样本,其伸缩性不够,当运用到大样本中去时,在确定分类的数目上就会遇到困难,所以我们采用的这种相结合的方法就会大打折扣。陈离飞等(2008),指出确定聚类数的问题目前仍是聚类分析研究中的一项基础性难题。
参考文献:
[1]邓秀勤.聚类分析在股票市场板块分析中的应用[J].数理统计与管理,1999年,18卷 第5期,1-4.
[2]韩家炜(Jiawei Han)等.数据挖掘:概念与技术(英文版.第2版)[M].北京:机械工业出版社,2006年4月.
[3]马超群等.金融数据挖掘[M].北京:科学出版社,2007年4月.
[4]陶冶,马健. 基于聚类分析和判别分析方法的股票投资价值分析 —关于中小企业板的初步研究[J]. 财经理论与实践, 2005年,第26卷 第138期,45-48.
[5]谢思.金融类上市公司经营绩效分析[J].广西金融研究,2007年,第10期,46-50.
[6]陈离飞等.基于层次划分的最佳聚类数确定方法[J].Journal of Software,2008,Vol 19 No.1,62-72
(作者通讯地址:浙江工商大学金融学院 浙江 杭州310018)
关键词:经营业绩;主成分分析;系统聚类;K-means
一、引言
随着我国金融市场的不断发展,上市公司的数量也在逐年增加,2009年我国股票市场正式推出了创业板,为许多高科技的中小公司提供了一个筹融资的平台。在此同时,对于投资者来说,其投资股票的选择余地也变得更加的广泛。但是这么多公司,有的经营业绩好,有的经营业绩差。对投资者来说,如何区分出业绩较好的公司和业绩较差的公司,直接影响到其投资的成功率。因此,通过一定的方法对上市公司进行分类,显得比较重要。
在这一方面,国内很多的学者,在区分上市公司的财务状况时,使用的方法基本上是主成分分析和聚类分析这两种方法相结合。其中比较具有代表性的是,邓秀勤(1999),将聚类分析方法应用到股票市场的板块分析,它选取了每股收益、每股净资产、股东权益率、净资产收益率、净利润率等5个反应盈利能力的财务指标,进行系统聚类分析。但是这种做法,在指标的选择上有些不足,单单从盈利能力指标考虑,不能够很好的反映出上市公司的综合实力。周焯华等(2002),综合考虑行业因素和公司因素,选取了17个指标来考察上市公司的业绩,从而它在指标体系的选择上有一个比较好的改进,但是它在面对如此多的指标的时候,没有进行降维处理,而直接进行了聚类分析,是否所有的指标都发挥了一定的效力值得我们怀疑。陶冶等(2005),应用该方法对中小板的股票进行了投资价值的分析。谢思(2007),利用因子分析和聚类分析相结合的方法对金融类的上市公司进行了经营绩效的分析,这是对以前诸多方法的一个不错的改进。总结国内学者,对上市公司分类所用方法的一个共性,单单使用了系统聚类分析得出聚类结果。
而韩家炜(2006)指出,如果单纯的使用系统聚类这种方法,有个缺陷,系统聚类属于层次法的一种,它一旦一个步骤(合并或分裂)完成,它就不能被撤消。书中指出的另外一种方法,K-means则在类的数目的确定上过于主观性。考虑每种聚类方法各自的局限性和优势,建议在做聚类分析时,将凝聚法和K-means这两种方法结合起来,会达到一个更好的效果。
基于此,本文首先选取比较全面的财务指标,然后利用主成分分析和聚类分析相结合的方法来评价上市公司的业绩,进而对某一区域板块的所有上市公司进行分类。在聚类的过程中,本文首先通过系统聚类的方法确定分类的数目,然后在此类数目的基础上,利用 K-means方法进行再聚类。
二、 主成分分析和聚类分析
主成分分析的工作对象是高维定量变量形成的数据。在统计学中,主成分分析的主要作用是:在尽量减少原始信息损失的条件下,将高维问题转化为低维问题。其基本原理:统计学认为,变异的数据可以提供某种识辨信息,数据之间的变异越大,能够提供的识辨信息就越多。由于统计学通常采用方差来表示数据之间的变异大小,因此数据的方差越大,数据能够提供的识辨信息量就越大。在高维数据集中,各分量数据所提供的全部识辨信息量可以用各分量的方差之和来表示。一种较好的办法是利用原始数据库建立新的数据库,新数据库能够保持原始数据库的全部识辨信息,并且新数据库所含有的识辨信息能够较多地集中在少数几个分量上,这样我们利用这几个分量就可以在尽量减少原始信息损失的条件,将高维问题转化为低维问题。
聚类是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异,聚类是一种无指导的学习,不依赖预先定义的类和训练样本。聚类分析主要集中在基于距离的聚类分析。
聚类分析前首先要做的是对数据变量标准化,数据类型大致分为区间标度变量、二元变量、标称型、序数型和比例标度型变量、混合类型变量。而本文中用到的都是区间标度变量,区间标度变量是一个线性标度的连续度量。为了实现度量值的标准化,一种方法是将原来的度量值转换为无单位的值。我们用距离判断样本之间的相似程度,聚类分析算法有划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等,本文选取的方法是划分法中K-means法和层次法中的凝聚法。
划分方法是,给定一个含有n个对象的数据库,一个划分方法构建数据的k个划分,每个划分表示一个聚类,且k≤n。它将数据划分为k个组,同时满足如下的要求:(1)每个组至少包含一个对象;(2)每个对象必须属于且只属于一个组。给定k,即要构建划分的数目,划分方法首先创建一个初始划分。然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分。而k-means算法,是在该算法中,每个簇是利用该簇中的对象的平均值表示。
凝聚的方法,也称为自底向上的方法,一开始将每个对象作为单独的一个组,然后继续地合并相近的对象或组,直到所有的组合并为一个(层次的最上层),或者达到一个终止条件。
三、 数据的来源及指标说明
本文所选的样本是新疆板块所有A股上市公司,共34家,样本的财务数据均来自于其在上海证券交易所和深圳证券交易所公布的2009年年报。
所选取的指标变量共11个,包括总资产利润率(x1)、净资产利润率(x2)、每股收益(x3)、资产负债率(x4)、净资产收益率(x5)、总资产周转率(x6)、主营收入增长率(x7)、净利润增长率(x8)、每股净资产(x9)、每股公积金(x10)、每股未分配利润(x11)。
其中总资产利润率、净资产利润率、每股收益、净资产收益率反映了上市公司的盈利能力,属于正向指标;资产负债率反映了上市公司的偿债能力,属于适度指标;总资产周转率,反映了公司资产管理能力,属于正向指标;主营收入增长率、净利润增长率反映了公司的成长能力,属于正向指标。每股净资产、每股公积金、每股未分配利润,反映了公司的股本扩张能力,属于正向指标。
四、数据处理的过程及分析
我们首先对上市公司的这些财务指标数据,进行标准化处理。然后利用SAS软件,对这些数据进行主成分分析。图1 为主成分分析的运行结果,第1列为特征值情况,第4列为累积贡献率,前4个主成分的累积贡献率达到了83.07%,也就是说这4个主成分涵盖了原先指标的83.07%的信息,从而我们把原先11个指标降维成4个。
图2显示的是这4个主成分的载荷矩阵。可以看到,对主成分1影响较大的指标,有总资产利润率、净资产利润率、每股收益、净资产收益率,因此主成分1代表了公司的盈利能力;对主成分2影响较大的指标,有资产负债率、净利润增长率、主营收入增长率、每股公积金,因此主成分2代表了公司的成长能力;对主成分3影响较大的指标,有资产负债率、每股净资产、每股公积金,因此主成分3代表了公司的股本扩张能力;对主成分4影响较大的指标,是总资产周转率,因此主成分4代表了公司的资产管理能力。
我们根据每家公司各个主成分上的得分值分别对其进行排名,表1给出的是排名结果。
在以上主成分指标的基础上,我们对样本进行聚类分析,图3是通过系统聚类方法得到的谱系图,根据谱系图,我们可以确定聚类的数目。我们首先将该组样本分成6类。
在确定了类的数目后,我们通过K-means的方法,进行重新聚类,聚类结果如下:
第1类:国际实业、西部建设、青松建化、新疆众和
第2类:*ST汇通、*ST中葡、ST天宏
第3类:宏源证券、天山股份、天康生物、金风科技、特变电工、广汇股份
第4类:天山纺织
第5类:新中基、中泰化学、准油股份、北新路桥、新疆天业、啤酒花、天利高新、新农开发、天富热电、新赛股份、八一钢铁、友好集团
图3 系统聚类的谱系图
第6类:国统股份、伊力特、冠农股份、美克股份、*ST香梨、新疆城建、ST百花、中粮屯河
五、 聚类结果分析
我们对6类上市公司,分别求解了其类内的各财务指标均值。综合考察各财务指标均值后,分别在盈利能力,资产管理能力,成长能力和股本扩张能力4个方面,对其进行了排名(见表2),排名越靠前,表明该类公司在这方面的能力越强。
优质上市公司类:第1类和第3类,这两类上市公司,具有较好的盈利能力,资产管理的管理居于领先地位,且公司的成长性和扩展能力都是很强劲的。其中第3类上市公司的财务指标更加突出些,表现在其盈利能力和成长能力方面。而第1类上市公司在股本扩张能力方面,表现的更加突出。因此这两类上市公司是比较适合投资者关注的。
一般上市公司类:第5类和第6类,这两类上市公司,在总的上市公司中的比例是最高的,其各方面的财务指标处于所有上市公司中的一般水平。第5类上市公司在资产管理水平上比较具有优势,而第6类上市公司在成长性上具有一定的优势。
劣质上市公司类:第2类和第4类,两类加起来时为数不多的4家,这两类上市公司在盈利能力、成长性方面表现都很糟糕,可以看到第2类的3家上市公司,都是ST或者*ST公司,第4类中的天山纺织,如果继续这样差的经营业绩,很有可能被冠以ST。对于投资这类上市公司,投资者需谨慎。而该类上市公司管理者,则要注意改善自身的经营水平。
六、 总结
本文所采用的将系统聚类和k-means聚类相结合的方法对上市公司进行归类,在一定程度上,减少了类的数目确定上的过多主观性。但是系统聚类适合用于小样本,其伸缩性不够,当运用到大样本中去时,在确定分类的数目上就会遇到困难,所以我们采用的这种相结合的方法就会大打折扣。陈离飞等(2008),指出确定聚类数的问题目前仍是聚类分析研究中的一项基础性难题。
参考文献:
[1]邓秀勤.聚类分析在股票市场板块分析中的应用[J].数理统计与管理,1999年,18卷 第5期,1-4.
[2]韩家炜(Jiawei Han)等.数据挖掘:概念与技术(英文版.第2版)[M].北京:机械工业出版社,2006年4月.
[3]马超群等.金融数据挖掘[M].北京:科学出版社,2007年4月.
[4]陶冶,马健. 基于聚类分析和判别分析方法的股票投资价值分析 —关于中小企业板的初步研究[J]. 财经理论与实践, 2005年,第26卷 第138期,45-48.
[5]谢思.金融类上市公司经营绩效分析[J].广西金融研究,2007年,第10期,46-50.
[6]陈离飞等.基于层次划分的最佳聚类数确定方法[J].Journal of Software,2008,Vol 19 No.1,62-72
(作者通讯地址:浙江工商大学金融学院 浙江 杭州310018)