基于随机森林算法的企业信用风险评价研究

被引量 : 0次 | 上传用户:CT1978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国市场经济制度的完善,企业信用已经逐渐成为社会经济发展的重要基础。作为我国经济命脉的大中型企业,是资本市场中直接融资与间接融资的重要组成部分,它们必然也是金融机构贷款、投资者投资的主要对象。因此,研究和度量(大中型)企业的信用和信用风险,对我国经济的健康发展具有极为重要的现实意义。最近一段时间,国内外的某些上市公司侵害债权者、投资者权益的事件的内幕被相继揭开,社会民众对信用制度健全的强烈呼唤与政府对信用制度的逐渐重视交织在一起,促使社会诚信建设成为经济发展中的一个重心。而对信用制度的建设来讲,一方面需要加快建立和完善社会征信体系,另一方面采用恰当的方法对企业信用风险进行评价,二者不可或缺。本文重点研究如何利用数据挖掘、统计分析等技术,建立可靠的信用风险评价模型,对企业的信用等级进行识别以及预测。随机森林算法属于非线性建模工具,通过对样本数据信息不断进行提炼就可以完成数据分类或回归,具有很好的自适应能力,非常适合解决先验知识不清楚、无规则且多约束条件及样本数据不充分的应用问题。随机森林算法通过构造不同的训练集来增加各个分类模型的差异,使得分类组合模型的外推预测能力得到显著提高,并且克服了单个分类模型容易过拟合的缺点。随机森林算法的另一个优点是算法便捷快速,弥补了传统方法所带来的信息获取费时、间接及效率不高的不足,为分类预测走向实用化奠定了坚实的基础。而且,随机森林算法还有一个显著的特点,即能进行变量删选,得到评价指标重要性的度量值,使得模型能够构建高效的评价指标体系,促进了模型预测能力的提高。论文通过实证主要证明了以下结论:对于大中型企业中的电力生产企业而言,营业收入增长率、总资产增长率以及EBITDA利润率等指标,相对于企业自由现金流、流动资产周转率等指标对企业信用风险评价更重要;随机森林算法由于在决策树的内部节点随机选取特征以及Bagging方法进行抽样,使得算法对于数据噪声有良好的容忍度;在外推性以及预测能力方面,基于随机森林算法的信用风险评价模型要优于基准的Logit模型以及CART方法。论文采用了规范研究结合实证研究的分析方法。论文在第二章对相关研究文献进行了梳理和归纳总结,采取两线并行的模式,按时间序列分别对国内外企业信用风险评价模型的文献以及随机森林算法的应用的文献进行综述,了解了与论文相关的研究的发展历程以及前沿理论。在第三章和第四章中,本文对论文的内容进行了严格定义,规范了论文的研究范围,层层递进,形成完整的理论体系。在第三章中,论文首先对名’词“信用”和“信用风险”进行了定义,指明了本文研究的是企业的主体长期信用,以及包括违约风险与由于交易对手履约能力及信用状况的变化导致债权人资产价值产生变动遭受损失的可能性两种风险的信用风险;其次介绍了企业信用风险评价的含义及企业信用风险评价产生、发展的经济学理论基础,简要概括了企业信用风险评价的方法以及现代几种主要的企业信用风险评价模型。针对企业信用风险评价模型的运用,阐述了电力生产行业的界定与现状,进一步概述了研究电力生产企业信用风险评价对我国经济发展的重要意义。第四章主要介绍了本文所采用的随机森林算法的基本原理,着重阐述与随机森林定义紧密相关的两种方法:分类回归树(CRAT)与Bagging方法。特别是在第四节中,对随机森林方法进行了详细阐述,包括其定义、基本思想、评价模型优劣的标准—泛化误差、模型评价工具—OOB误差率以及随机森林算法的应用领域及其在应用中的优势。第四章的内容为后续章节的实证提供了理论工具与研究方向。特别值得注意的是,第三章与第四章虽各自独立成章,但它们相互支撑,共同形成了本文研究的理论基础。由于随机森林算法中OOB估计得到的OOB误差率的变化可以度量评价指标的重要性,因此,在第五章中论文主要讨论了在候选评价指标较多的情况下如何利用随机森林构建了合理、高效的评价指标体系,提高模型算法的效率。在第六章中,论文首先验证了随机森林算法对数据噪声的良好容忍度,为本文实验数据的处理方法提供了依据;其次,通过多次实验确定了模型参数的最佳取值;最后利用前面章节得到的评价指标体系、实验数据以及模型参数建立了本文的企业信用风险评价模型,并运用对比研究的方法,将基于随机森林的评价模型与Logit模型、CART模型进行对比分析,证明了基于随机森林算法的电力生产行业企业信用风险评价模型具有良好的稳定性、外推性以及出色的预测能力。由于随机森林是一种机器学习方法,属于智能算法,因此随机森林模型需要借助计算机实现。论文利用R语言编写程序命令并借助VarSeIRF程序包和randomForest程序包来实现评价指标体系以及信用风险评价模型的构建。本文的主要贡献在于将理论与实践相结合,避免陷入了单纯的理论分析,并将对比研究方法引入实证研究过程。在实证中,通过建立合理的评价指标体系以及企业信用风险评价模型证明了随机森林算法在模型运用中的出色表现,以强有力的论据支持了本文的观点。本文认为随机森林算法在数据处理、模型性能方面的优势将使其在企业信用风险评价领域得到更广泛的应用。本文研究的不足之处在于未考虑样本数据野点、对候选评价指标集的选择没有进行理论阐述、一些数据的处理不够精确以及定性指标偏少,还需进一步完善。
其他文献
邓小平同志说:"科学技术是第一生产力"。企业的研发能力既决定着企业运用科学技术提高生产效率的能力和参与市场竞争的能力,又是一个国家综合经济实力与发展潜力的重要体现。
在通信线路的施工中,水线的布放是一个非常重要的环节。本文通过实例,较详细地介绍了施工过程中应注意的问题。对较大河流的水线布放施工阐述了自己的见解。
成都茶馆多,在市场经济条件下经营模式百花齐放。初到成都的外地人会被成都五花八门的茶馆看得眼花缭乱,但是最能体现成都茶文化的是成都传统茶馆。本论文把成都传统茶馆界定
课堂作为教师与学生活动和交往的主要阵地,其教学活动不只是进行知识与技能的传授、内化和吸收,教师在课堂上外显的一言一行也会潜意识地影响发展中的个体(学生)。“学高为师
古典名著《红楼梦》中描写了许多医学现象,还讲了许多医学知识。第五十九回说:“一日春晓,宝钗……唤起湘云等人来。一面梳洗,……湘云因说两肋作痒,恐又犯了桃花癣,因向宝钗
无人机平台作为一种新兴航空遥感平台,具有起航快、造价低、对环境要求不高的特点,机上搭载高分辨率的数码摄像机就可以获得高分辨率的视频影像,通过对影像的拼接处理可以在救灾、交通监管、智慧城市等领域都有很好的应用。目前,无人机视频影像拼接技术仍不成熟,如何实现快速、高精度的拼接依然是一项重大挑战。本文选择以无人机视频影像拼接技术为研究内容,查阅了国内外的有关技术资料,了解了无人机视频影像的特性,研究了其
目的探讨经腹子宫全切除术(TAH)后经会阴盆底超声评价患者早期盆底功能改变的价值。方法预行TAH 40例未绝经患者,均在术前1周内及术后3个月行经会阴盆底超声检查,分别观察其
<正>5.招标投标中异议规定的汇总(1)潜在投标人或者其他利害关系人对资格预审文件有异议的,应当在提交资格预审申请文件截止时间2日前提出;对招标文件有异议的,应当在投标截
我国政府采购领域存在《招标投标法》和《政府采购法》并存的现象,由此带来了诸多冲突,对此我们无需过多苛责,毕竟两法的产生有其特定的社会环境和历史背景,区别于西方政府采
气候问题已经成为世界普遍关注的焦点,各国都在为环保做努力,相继提出了低碳理念,实现低碳经济。中国是世界上最大的发展中国家,政府对发展低碳经济非常重视,每个公民也应该