基于主成分分析和聚类分析的上市公司分类

来源 :当代经济管理科学 | 被引量 : 0次 | 上传用户：lw_hualei

【摘要】

：

【作者】

：

黄建伟

【出处】

：

当代经济管理科学

【发表日期】

：

2011年5期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：本文利用数据挖掘中的主成分分析和聚类分析技术，考察了上市公司的经营业绩，并对其进行归类。具体采取了系统聚类和K-means聚类相结合的聚类方法，综合这两种方法的优缺点，以新疆板块的所有上市公司为样本，进行了实证分析，所得结果可以给各方面人士提供信息决策的依据。上市公司可根据聚类结果了解其自身经营管理的薄弱方面，针对这些有所重点的进行改进；而投资者则可以据此找出最优的公司，为其投资决策提供选择的依据。
　　关键词：经营业绩；主成分分析；系统聚类；K-means
　　
　　一、引言
　　
　　随着我国金融市场的不断发展，上市公司的数量也在逐年增加，2009年我国股票市场正式推出了创业板，为许多高科技的中小公司提供了一个筹融资的平台。在此同时，对于投资者来说，其投资股票的选择余地也变得更加的广泛。但是这么多公司，有的经营业绩好，有的经营业绩差。对投资者来说，如何区分出业绩较好的公司和业绩较差的公司，直接影响到其投资的成功率。因此，通过一定的方法对上市公司进行分类，显得比较重要。
　　在这一方面，国内很多的学者，在区分上市公司的财务状况时，使用的方法基本上是主成分分析和聚类分析这两种方法相结合。其中比较具有代表性的是，邓秀勤（1999），将聚类分析方法应用到股票市场的板块分析，它选取了每股收益、每股净资产、股东权益率、净资产收益率、净利润率等5个反应盈利能力的财务指标，进行系统聚类分析。但是这种做法，在指标的选择上有些不足，单单从盈利能力指标考虑，不能够很好的反映出上市公司的综合实力。周焯华等（2002），综合考虑行业因素和公司因素，选取了17个指标来考察上市公司的业绩，从而它在指标体系的选择上有一个比较好的改进，但是它在面对如此多的指标的时候，没有进行降维处理，而直接进行了聚类分析，是否所有的指标都发挥了一定的效力值得我们怀疑。陶冶等（2005），应用该方法对中小板的股票进行了投资价值的分析。谢思（2007），利用因子分析和聚类分析相结合的方法对金融类的上市公司进行了经营绩效的分析，这是对以前诸多方法的一个不错的改进。总结国内学者，对上市公司分类所用方法的一个共性，单单使用了系统聚类分析得出聚类结果。
　　而韩家炜（2006）指出，如果单纯的使用系统聚类这种方法，有个缺陷，系统聚类属于层次法的一种，它一旦一个步骤（合并或分裂）完成，它就不能被撤消。书中指出的另外一种方法，K-means则在类的数目的确定上过于主观性。考虑每种聚类方法各自的局限性和优势，建议在做聚类分析时，将凝聚法和K-means这两种方法结合起来，会达到一个更好的效果。
　　基于此，本文首先选取比较全面的财务指标，然后利用主成分分析和聚类分析相结合的方法来评价上市公司的业绩，进而对某一区域板块的所有上市公司进行分类。在聚类的过程中，本文首先通过系统聚类的方法确定分类的数目，然后在此类数目的基础上，利用 K-means方法进行再聚类。
　　
　　二、主成分分析和聚类分析
　　
　　主成分分析的工作对象是高维定量变量形成的数据。在统计学中，主成分分析的主要作用是：在尽量减少原始信息损失的条件下，将高维问题转化为低维问题。其基本原理：统计学认为，变异的数据可以提供某种识辨信息，数据之间的变异越大，能够提供的识辨信息就越多。由于统计学通常采用方差来表示数据之间的变异大小，因此数据的方差越大，数据能够提供的识辨信息量就越大。在高维数据集中，各分量数据所提供的全部识辨信息量可以用各分量的方差之和来表示。一种较好的办法是利用原始数据库建立新的数据库，新数据库能够保持原始数据库的全部识辨信息，并且新数据库所含有的识辨信息能够较多地集中在少数几个分量上，这样我们利用这几个分量就可以在尽量减少原始信息损失的条件，将高维问题转化为低维问题。
　　聚类是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异，聚类是一种无指导的学习，不依赖预先定义的类和训练样本。聚类分析主要集中在基于距离的聚类分析。
　　聚类分析前首先要做的是对数据变量标准化，数据类型大致分为区间标度变量、二元变量、标称型、序数型和比例标度型变量、混合类型变量。而本文中用到的都是区间标度变量，区间标度变量是一个线性标度的连续度量。为了实现度量值的标准化，一种方法是将原来的度量值转换为无单位的值。我们用距离判断样本之间的相似程度，聚类分析算法有划分的方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法等，本文选取的方法是划分法中K-means法和层次法中的凝聚法。
　　划分方法是，给定一个含有n个对象的数据库，一个划分方法构建数据的k个划分，每个划分表示一个聚类，且k≤n。它将数据划分为k个组，同时满足如下的要求：（1）每个组至少包含一个对象；（2）每个对象必须属于且只属于一个组。给定k，即要构建划分的数目，划分方法首先创建一个初始划分。然后采用一种迭代的重定位技术，尝试通过对象在划分间移动来改进划分。而k-means算法，是在该算法中，每个簇是利用该簇中的对象的平均值表示。
　　凝聚的方法，也称为自底向上的方法，一开始将每个对象作为单独的一个组，然后继续地合并相近的对象或组，直到所有的组合并为一个（层次的最上层），或者达到一个终止条件。
　　
　　三、数据的来源及指标说明
　　
　　本文所选的样本是新疆板块所有A股上市公司，共34家，样本的财务数据均来自于其在上海证券交易所和深圳证券交易所公布的2009年年报。
　　所选取的指标变量共11个，包括总资产利润率（x1）、净资产利润率(x2)、每股收益(x3)、资产负债率(x4)、净资产收益率(x5)、总资产周转率(x6)、主营收入增长率(x7)、净利润增长率(x8)、每股净资产(x9)、每股公积金(x10)、每股未分配利润(x11)。
　　其中总资产利润率、净资产利润率、每股收益、净资产收益率反映了上市公司的盈利能力，属于正向指标；资产负债率反映了上市公司的偿债能力，属于适度指标；总资产周转率，反映了公司资产管理能力，属于正向指标；主营收入增长率、净利润增长率反映了公司的成长能力，属于正向指标。每股净资产、每股公积金、每股未分配利润，反映了公司的股本扩张能力，属于正向指标。
　　
　　四、数据处理的过程及分析
　　
　　我们首先对上市公司的这些财务指标数据，进行标准化处理。然后利用SAS软件，对这些数据进行主成分分析。图1 为主成分分析的运行结果，第1列为特征值情况，第4列为累积贡献率，前4个主成分的累积贡献率达到了83.07%，也就是说这4个主成分涵盖了原先指标的83.07%的信息，从而我们把原先11个指标降维成4个。
　　图2显示的是这4个主成分的载荷矩阵。可以看到，对主成分1影响较大的指标，有总资产利润率、净资产利润率、每股收益、净资产收益率，因此主成分1代表了公司的盈利能力；对主成分2影响较大的指标，有资产负债率、净利润增长率、主营收入增长率、每股公积金，因此主成分2代表了公司的成长能力；对主成分3影响较大的指标，有资产负债率、每股净资产、每股公积金，因此主成分3代表了公司的股本扩张能力；对主成分4影响较大的指标，是总资产周转率，因此主成分4代表了公司的资产管理能力。
　　我们根据每家公司各个主成分上的得分值分别对其进行排名，表1给出的是排名结果。
　　在以上主成分指标的基础上，我们对样本进行聚类分析，图3是通过系统聚类方法得到的谱系图，根据谱系图，我们可以确定聚类的数目。我们首先将该组样本分成6类。
　　在确定了类的数目后，我们通过K-means的方法，进行重新聚类，聚类结果如下：
　　第1类：国际实业、西部建设、青松建化、新疆众和
　　第2类：*ST汇通、*ST中葡、ST天宏
　　第3类：宏源证券、天山股份、天康生物、金风科技、特变电工、广汇股份
　　第4类：天山纺织
　　第5类：新中基、中泰化学、准油股份、北新路桥、新疆天业、啤酒花、天利高新、新农开发、天富热电、新赛股份、八一钢铁、友好集团
　　图3 系统聚类的谱系图
　　第6类：国统股份、伊力特、冠农股份、美克股份、*ST香梨、新疆城建、ST百花、中粮屯河
　　
　　五、聚类结果分析
　　
　　我们对6类上市公司，分别求解了其类内的各财务指标均值。综合考察各财务指标均值后，分别在盈利能力，资产管理能力，成长能力和股本扩张能力4个方面，对其进行了排名（见表2），排名越靠前，表明该类公司在这方面的能力越强。
　　优质上市公司类：第1类和第3类，这两类上市公司，具有较好的盈利能力，资产管理的管理居于领先地位，且公司的成长性和扩展能力都是很强劲的。其中第3类上市公司的财务指标更加突出些，表现在其盈利能力和成长能力方面。而第1类上市公司在股本扩张能力方面，表现的更加突出。因此这两类上市公司是比较适合投资者关注的。
　　一般上市公司类：第5类和第6类，这两类上市公司，在总的上市公司中的比例是最高的，其各方面的财务指标处于所有上市公司中的一般水平。第5类上市公司在资产管理水平上比较具有优势，而第6类上市公司在成长性上具有一定的优势。
　　劣质上市公司类：第2类和第4类，两类加起来时为数不多的4家，这两类上市公司在盈利能力、成长性方面表现都很糟糕，可以看到第2类的3家上市公司，都是ST或者*ST公司，第4类中的天山纺织，如果继续这样差的经营业绩，很有可能被冠以ST。对于投资这类上市公司，投资者需谨慎。而该类上市公司管理者，则要注意改善自身的经营水平。
　　
　　六、总结
　　
　　本文所采用的将系统聚类和k-means聚类相结合的方法对上市公司进行归类，在一定程度上，减少了类的数目确定上的过多主观性。但是系统聚类适合用于小样本，其伸缩性不够，当运用到大样本中去时，在确定分类的数目上就会遇到困难，所以我们采用的这种相结合的方法就会大打折扣。陈离飞等（2008），指出确定聚类数的问题目前仍是聚类分析研究中的一项基础性难题。
　　
　　参考文献:
　　［1］邓秀勤.聚类分析在股票市场板块分析中的应用［J］.数理统计与管理，1999年，18卷第5期，1-4.
　　［2］韩家炜（Jiawei Han）等.数据挖掘:概念与技术(英文版.第2版)［M］.北京：机械工业出版社，2006年4月.
　　［3］马超群等.金融数据挖掘［M］.北京：科学出版社，2007年4月.
　　［4］陶冶,马健. 基于聚类分析和判别分析方法的股票投资价值分析 —关于中小企业板的初步研究［J］. 财经理论与实践, 2005年,第26卷第138期,45-48.
　　［5］谢思.金融类上市公司经营绩效分析［J］.广西金融研究，2007年，第10期，46-50.
　　［6］陈离飞等.基于层次划分的最佳聚类数确定方法［J］.Journal of Software,2008,Vol 19 No.1,62-72
　　（作者通讯地址：浙江工商大学金融学院浙江杭州310018）

其他文献

关于营业税税制调整方向的建议

摘要：营业税是地方的主要税种，但是目前我国现行营业税制存在着一定的问题，如税种矛盾、企业税收投机等问题，本文尝试对现行营业税制进行分析，并针对存在的问题提出政策建议。　　关键词：营业税；实际税负；立法　　　　营业税作为地方税收的主体税种，担负着组织地方财政收入的重要任务。因此,探讨营业税的改革方向，对完善地方税制，优化地方财力结构，具有重要的现实意义。　　一、现行营业税制的特点　　1、立法权集中

期刊

高等学校辅修\双学位教育管理工作探析

摘要：辅修、双学位教育是一种培养具有跨学科专业知识的复合型人才的重要模式。本文从辅修、双学位教育管理工作的现状入手，分析了辅修、双学位教育管理工作中存在的主要问题，提出了提高辅修、双学位教育质量的对策建议。　　关键词：辅修；双学位；教育管理；教育质量　　　　随着我国社会主义市场经济的逐步建立和科学技术的迅猛发展，传统、单一的“专业型”人才培养模式已不能适应社会发展的要求，而鼓励在校大学生在学好主

期刊

浅议政工干部思想政治素养的提升

在新形势、新任务下，各级党组织要深刻认识加强企业党建思想政治工作的重要性和紧迫性，特别是各级党员领导干部，作为党的建设的组织者、实践者、推动者，必须带头贯彻党的路线方针政策，实践党的根本宗旨，加强党建思想政治工作调查研究，分析新情况、解决新问题、总结新经验。政工干部所从事的是人的思想工作,是一项复杂、细致、辛苦、有时又是非常难做的工作,责任重大,没有深厚的理论修养,没有较高的政策水平,没有无私奉献

期刊

对我国中小城市国企改制后“4050”职工社区就业的探讨

摘要：中小城市及其需要就业的人数在我国城市中所占比重大；社区是城市社会就业和经济发展的重要承担者；社区组织是居民自己的组织；国企改制交社区管理后职工成了纯社区居民，女40岁男50岁以上“4050”职工要“顾家”只能在社区就业。本文采取社区调查、政策法规与现实、理论与实践等多点连接、多方探究的方法，对中小城市国企改制后“4050”职工社区就业现状、措施、途径进行了探讨。　　关键词：中小城市；国企改

期刊

加快发展区域低碳经济的对策

摘要：近年来，泰安市大力发展循环经济、节能减排，取得了明显成效。但与科学发展观和低碳经济发展的要求相比，还存在着一定差距和问题。加快推进区域低碳经济的发展，应完善体制机制、发展低碳产业、实施社会的低碳化管理等。　　关键词：泰安；低碳经济；问题；对策  　　　　低碳经济是以研发和推广低碳能源技术、增加碳汇、发展碳吸收技术，以及节能减排、产业升级、消费模式更新和制度创新为途径，大幅减少化

期刊

浅议企业油品经营管理的提升

摘要：本文主要对润滑油使用单位在润滑油的采购、使用与管理中常见的技术问题做了总结与分析。对润滑油的选购，润滑油产品的验收，以及用油制度的规范化等几个方面进行了阐述。　　关键词：企业；润滑油；管理　　　　随着中国石油集团改革的不断深化，下属各企业也在努力完善各自企业的现代化管理和服务。本人一直从事的工作是成品油及润滑油的供应及管理，下面结合自己多年的工作情况，主要对润滑油使用单位在润滑油的采购、使

期刊

新世纪中国与中亚经济合作新思路

摘要：改革开放以来特别是进入21世纪，中国与中亚经济合作取得长足发展，但2008年的美国次贷危机已演变成全球金融危机。在此背景之下，中国与中亚的经济合作环境也发生了些变化，在新环境下寻求双方之间合作的新重点，积极拓展中亚市场，展开与中亚合作的新篇章。　　关键词：中国新疆;中亚;经济合作　　　　新疆作为中欧发展的桥头堡，在中国与中亚的经济合作中起着不可代替的作用。新疆地处亚欧腹部，第二亚欧大陆桥中

期刊

浅析公司通过网络改变核心产品及延伸产品的方式

摘要：网络营销是在网站上进行宣传企业形象，公布产品信息，实现市场调查、收集客户反馈信息等工作，不同的公司采取的网络营销方式也不尽相同。本文是作者对3个生产相近产品的公司的不同的网络营销策略的分析。　　关键词：网络营销；企业形象；反馈信息；附加值　　　　网络营销，是以互联网为主要手段开展的营销活动，因而Internet成为其重要的信息载体。Internet的信息传播是双向的，它不仅可以在网站上宣传

期刊

金融危机背后的道德危机对新疆企业文化建设的启示

摘要：2008年美国金融危机使全世界打了一个“寒颤”，其影响至今还未彻底消除。新疆特殊的地理位置及发展特点决定了其受到影响的时间相对滞后，因此，新疆企业必须对金融危机及其产生的原因提高警惕。通过分析金融危机背后的道德危机，并以此警示新疆企业构建以企业道德为基础的企业文化。　　关键词：金融危机；道德危机；影响；新疆企业文化　　　　“山雨欲来风满楼,黑云压城城欲摧”，源自大洋彼岸的2008年的美金融

期刊

西方国家信息化建设对新疆信息化建设的启示

摘要：20世纪末到21世纪初，世界社会经济及各个领域的信息化在全世界，尤其是发达国家迅猛发展。信息通信技术(Information Communication Technology，简称ICT)作为一种可持续发展的重要手段，已经并将对经济社会发展产生巨大的影响，信息化发展水平已经成为衡量国家综合国力和国际竞争力的重要标志。　　关键词：信息化；信息通信技术；可持续发展　　　　一、西方国家信息化现状

期刊

基于主成分分析和聚类分析的上市公司分类

与本文相关的学术论文