论文部分内容阅读
违约预测是根据过去和现在企业的指标数据、环境数据和违约状态来推断企业未来的违约状态和违约概率。违约预测对于股票投资、债券投资、银行贷款和商业信用决策具有极为重要的意义。本研究包括五部分内容:第一章是绪论。第二章是最优抽样概率与高精度投票模型的基本原理。第三章是最优抽样概率与高精度投票模型构建。第四章是实证分析。第五章是结论。本研究的研究重点包括:一是有放回抽样的抽样概率问题。由于每一次非ST样本的抽样都会与ST样本构成一个平衡样本,都会得到一个平衡样本建模的预测精度。多次抽样则会得到多个平衡样本和多个多数投票的预测精度。客观上,总有一个最高的预测精度对应一个最优的抽样概率。二是高精度模型的筛选问题。现有研究的投票(多数投票)实质上是一个多个模型预测结果投票的平均问题。低精度的结果与高精度的结果平均后势必降低预测的精度。因此,如何选择不同模型进行投票,是提高预测精度亟待解决的问题。本研究的主要创新:一是通过第k(k=1,2,3,4,5)个抽样概率p_k把训练样本划分成一组的多个平衡样本,并由此建立一组的多个决策树模型,用这一组模型对测试样本进行投票,得到一个预测精度G-mean(k);当p_k取不同数值90%,92.5%,95%,97.5%和99%等多个抽样概率时,则会得到多个预测精度G-mean(k),通过G-mean(k)最大,则找到了最优的抽样概率p_k~*。二是在最优的p_k~*划分成的多个平衡样本、建立的多个决策树模型中,淘汰低于平均精度Accuracy的决策树,采用高于平均精度Accuracy的决策树模型进行投票,提高了基于决策树模型投票的违约预测精度。研究发现,“十大股东股权集中指标”,“留存收益/总资产”与“失业率”3个指标对鉴别上市公司的违约预测能力最重要。中国上市公司的省份信用特征为:“浙江”、“江苏”、“广东”三省的信用资质最好。“河北”、“辽宁”、“天津”的信用资质居中。“青海”、“海南”、“宁夏”三省的信用资质最低。中国上市公司的行业信用特征为:“科学研究和技术服务业”和“信息传输、软件和信息技术服务业”的信用资质最好;“金融业”和“建筑业”两个行业居中;“房地产业”和“综合”两个行业最差。