论文部分内容阅读
债券市场是构成我国经济主体的重要市场。近年来债券市场违约事件频发,我国信用债违约风险日渐突出,因此对违约风险的评估尤为重要。目前大部分投资者的评估都依赖于债券的信用评级,但大量数据表明,违约信用债发行时的评级并不低,如果仅从债券评级来确定债券的投资价值不太合理。投资者需要更合理的方法来评估信用债的违约风险,而机器学习对此提供了一种可能的评估方案。因此,本文旨在对当前主流的几种分类预测模型进行结果对比,并选择一个较优的信用债违约风险预测模型。首先,本文对近年来我国信用债市场的违约特征进行分析,梳理了三个典型的信用债违约案例,介绍了XGboost、逻辑回归、支持向量机等8种信用风险度量的相关技术。其次,通过主成分分析法,从债券发行数据、发行人财务数据和宏观数据三个层面的32个变量中提取出10个债券违约风险因子,利用XGboost算法进行变量的重要性分析,并基于上述8种技术分别建立了信用债违约风险预测模型,通过AUC值等评价指标对比分析各模型的分类预测效果。最后,运用网格搜索算法和K-折交叉验证对XGboost模型的Booster Parameters进行优化,并确定最终的分类预测模型。实证结果表明:(1)无论是在原始数据集上还是在降维后的数据集上,基于决策树和集成思想构建的随机森林模型和XGboost等boosting系列的模型在信用债违约风险预测方面效果优于其他模型。(2)这四种模型在原始数据集上,分类预测优势更明显,更适合于处理高维的数据集。但在本文的原始数据集上,随机森林模型分类预测结果的稳定性不如boosting系列的模型好。(3)以AUC值为评价指标,参数优化后的XGboost模型对信用债违约风险的预测效果最优,具有最大的AUC值。总而言之,在大数据时代的背景下,利用XGboost等机器学习算法能对信用债的违约风险进行较准确地预测。这不仅有助于保证债券定价的合理性,也有助于投资者权衡债券的收益与风险,从而促进国内债券市场健康稳定地发展。