论文部分内容阅读
随着我国市场经济制度的完善,企业信用已经逐渐成为社会经济发展的重要基础。作为我国经济命脉的大中型企业,是资本市场中直接融资与间接融资的重要组成部分,它们必然也是金融机构贷款、投资者投资的主要对象。因此,研究和度量(大中型)企业的信用和信用风险,对我国经济的健康发展具有极为重要的现实意义。最近一段时间,国内外的某些上市公司侵害债权者、投资者权益的事件的内幕被相继揭开,社会民众对信用制度健全的强烈呼唤与政府对信用制度的逐渐重视交织在一起,促使社会诚信建设成为经济发展中的一个重心。而对信用制度的建设来讲,一方面需要加快建立和完善社会征信体系,另一方面采用恰当的方法对企业信用风险进行评价,二者不可或缺。本文重点研究如何利用数据挖掘、统计分析等技术,建立可靠的信用风险评价模型,对企业的信用等级进行识别以及预测。随机森林算法属于非线性建模工具,通过对样本数据信息不断进行提炼就可以完成数据分类或回归,具有很好的自适应能力,非常适合解决先验知识不清楚、无规则且多约束条件及样本数据不充分的应用问题。随机森林算法通过构造不同的训练集来增加各个分类模型的差异,使得分类组合模型的外推预测能力得到显著提高,并且克服了单个分类模型容易过拟合的缺点。随机森林算法的另一个优点是算法便捷快速,弥补了传统方法所带来的信息获取费时、间接及效率不高的不足,为分类预测走向实用化奠定了坚实的基础。而且,随机森林算法还有一个显著的特点,即能进行变量删选,得到评价指标重要性的度量值,使得模型能够构建高效的评价指标体系,促进了模型预测能力的提高。论文通过实证主要证明了以下结论:对于大中型企业中的电力生产企业而言,营业收入增长率、总资产增长率以及EBITDA利润率等指标,相对于企业自由现金流、流动资产周转率等指标对企业信用风险评价更重要;随机森林算法由于在决策树的内部节点随机选取特征以及Bagging方法进行抽样,使得算法对于数据噪声有良好的容忍度;在外推性以及预测能力方面,基于随机森林算法的信用风险评价模型要优于基准的Logit模型以及CART方法。论文采用了规范研究结合实证研究的分析方法。论文在第二章对相关研究文献进行了梳理和归纳总结,采取两线并行的模式,按时间序列分别对国内外企业信用风险评价模型的文献以及随机森林算法的应用的文献进行综述,了解了与论文相关的研究的发展历程以及前沿理论。在第三章和第四章中,本文对论文的内容进行了严格定义,规范了论文的研究范围,层层递进,形成完整的理论体系。在第三章中,论文首先对名’词“信用”和“信用风险”进行了定义,指明了本文研究的是企业的主体长期信用,以及包括违约风险与由于交易对手履约能力及信用状况的变化导致债权人资产价值产生变动遭受损失的可能性两种风险的信用风险;其次介绍了企业信用风险评价的含义及企业信用风险评价产生、发展的经济学理论基础,简要概括了企业信用风险评价的方法以及现代几种主要的企业信用风险评价模型。针对企业信用风险评价模型的运用,阐述了电力生产行业的界定与现状,进一步概述了研究电力生产企业信用风险评价对我国经济发展的重要意义。第四章主要介绍了本文所采用的随机森林算法的基本原理,着重阐述与随机森林定义紧密相关的两种方法:分类回归树(CRAT)与Bagging方法。特别是在第四节中,对随机森林方法进行了详细阐述,包括其定义、基本思想、评价模型优劣的标准—泛化误差、模型评价工具—OOB误差率以及随机森林算法的应用领域及其在应用中的优势。第四章的内容为后续章节的实证提供了理论工具与研究方向。特别值得注意的是,第三章与第四章虽各自独立成章,但它们相互支撑,共同形成了本文研究的理论基础。由于随机森林算法中OOB估计得到的OOB误差率的变化可以度量评价指标的重要性,因此,在第五章中论文主要讨论了在候选评价指标较多的情况下如何利用随机森林构建了合理、高效的评价指标体系,提高模型算法的效率。在第六章中,论文首先验证了随机森林算法对数据噪声的良好容忍度,为本文实验数据的处理方法提供了依据;其次,通过多次实验确定了模型参数的最佳取值;最后利用前面章节得到的评价指标体系、实验数据以及模型参数建立了本文的企业信用风险评价模型,并运用对比研究的方法,将基于随机森林的评价模型与Logit模型、CART模型进行对比分析,证明了基于随机森林算法的电力生产行业企业信用风险评价模型具有良好的稳定性、外推性以及出色的预测能力。由于随机森林是一种机器学习方法,属于智能算法,因此随机森林模型需要借助计算机实现。论文利用R语言编写程序命令并借助VarSeIRF程序包和randomForest程序包来实现评价指标体系以及信用风险评价模型的构建。本文的主要贡献在于将理论与实践相结合,避免陷入了单纯的理论分析,并将对比研究方法引入实证研究过程。在实证中,通过建立合理的评价指标体系以及企业信用风险评价模型证明了随机森林算法在模型运用中的出色表现,以强有力的论据支持了本文的观点。本文认为随机森林算法在数据处理、模型性能方面的优势将使其在企业信用风险评价领域得到更广泛的应用。本文研究的不足之处在于未考虑样本数据野点、对候选评价指标集的选择没有进行理论阐述、一些数据的处理不够精确以及定性指标偏少,还需进一步完善。