论文部分内容阅读
随着市场竞争的日趋激烈,公司出现财务危机的风险也逐渐加大。对于公司的经营者、投资者、债权人等利益相关者来说,能否有效地预测财务危机是他们最为关注的问题之一。财务危机预警已有八十多年的历史,大致经历了统计分析和数据挖掘两个阶段。近年来,基于人工智能的支持向量机和人工神经网络在财务预警领域得到了广泛的应用,有效地提高了预警效率。但由于财务预警问题的不平衡性,以及数据噪声和分布的复杂性等问题,使得这些方法难以达到令人满意的结果。此外,这些方法对模型的解释能力不足,使模型的可信度大大降低。鉴于此,本文引入一种组合分类算法——随机森林,该算法具有较好的噪声鲁棒性和泛化能力,且能很好地处理不平衡分类问题;同时该算法计算变量重要性的功能和提供的偏相关函数对于模型的理解有一定的帮助。本文首先回顾并总结了前人的研究成果,接着详细介绍了随机森林算法的原理和它的应用及研究现状。在此基础上本文按照数据挖掘项目流程对制造业上市公司的财务预警问题进行研究,大致分为数据准备和模型构建与评估两个阶段。在数据准备阶段讨论了样本和指标的选取原则,通过描述性的统计分析探索数据的分布,并对指标异常值进行了归约;接着利用随机森林产生的相似度矩阵诊断数据中的异常样本并予以剔除,然后利用随机森林对每个指标进行重要性评估,筛选出对财务预警模型贡献最大的指标组合,并将该组合与传统指标筛选方法得到的指标组合进行比较,实验证明随机森林筛选出来的最优指标组合更有利于模型性能的提高。在模型构建与评估阶段,首先介绍了随机森林两大参数的优选方法,接着就随机森林的容噪性进行了数据实验,结果证明了其良好的噪声鲁棒性;然后针对财务预警问题的不平衡性,介绍了基于数据层面的过采样和欠采样方法与基于算法层面的平衡随机森林和投票阈值调整随机森林,实验比较表明基于投票阈值调整的随机森林表现最优;接着引入误判成本函数,比较了随机森林、支持向量机、BP神经网络三类模型的性能,实验结果表明随机森林的误判成本最低;最后利用偏相关函数对基于随机森林的制造业上市公司财务预警模型进行解释,并给出一个危机预警区间,为企业的利益相关者提供参考。