论文部分内容阅读
在信用卡数据建模的分类器构造问题中,“好”“坏”客户具有严重不均衡的数据特性,在抽样方法的框架下,解决数据非均衡性的方法主要是欠抽样、过抽样或者两者的结合,一般情况下,欠抽样会造成信息损失,过抽样易导致过拟合,本文基于XGBoost方法和集成学习的思想,提出一种拟袋装(quasi-bagging)方法,该方法简便易行,对多数类进行随机分组,用每组的多数类样本和一定比例或者全部的少数类样本建立子模型,最终结果由子模型预测均值或投票产生,该方法借鉴bagging方法中的集成思想,并利用训练集中所有样本信息进行分类器的构造,具有较高的模型准确率。每组子模型采用基于梯度Boosting的XGBoost方法进行实现,并进一步讨论了方法具有相合性等性质。实证分析的结果显示,本文的方法与若干已有方法相比,具有更好的分类结果。