论文部分内容阅读
大数据时代下,用户信用数据中的高维稀疏特征与样本不平衡现象日益显著。为处理高维特征,文中采用随机森林(RF)从Filter和Wrapper角度进行特征提取,并用SMOTE算法对训练集样本做采样处理。模型训练阶段使用粒子群优化算法对XGboost模型做分类精度提高。最后,采用一开源银行数据集提供的数据进行实例验证。结果表明,相较于一般的GBDT模型和网格搜索法,所建立的模型在评估时具有更好的精度与收敛性。