论文部分内容阅读
随着我国进入了“新时代”的历史发展期,国内经济社会发展取得了巨大成就,人民群众的生活水平不断提升。同时,随着信息技术的快速发展和人们消费观念的日益转变,信用卡透支消费在人们的日常消费中逐渐占据举足轻重的地位。然而银行等金融机构在拓展个人信贷业务的同时,也给自身带来了巨大风险。在信用卡业务的贷中环节,金融机构和客户之间的信息不对称导致了金融机构将面临潜在的违约风险。如何在扩大信用卡业务的同时,有效预防和控制信用卡违约风险,是各金融机构亟需解决的问题。对此,金融机构通过将客户的历史消费记录和还款情况等历史信用记录作为客户信用评价的工具,预测客户每月还款情况,继而根据逾期和违约情况对持卡客户采取进一步的营销推广或消费限制。因此,精准识别潜在违约客户,减少金融机构因客户信用违约风险而造成的损失以及挖掘优质信用客户提高运营效益是广大金融机构一直以来渴望解决的核心问题。因此,建立科学有效的信用卡违约预测模型具有重要的现实意义。目前数据挖掘技术已经趋于成熟且在社会各个领域得到了非常广泛良好的应用,特别是在对大数据分析中,数据挖掘方法具有无可比拟的优势。银行的数据库对用户的个人信息、信用卡历史交易数据等的收集和记录在很大程度上降低了由于信息不对称带来的金融风险。风险部门基于这些海量历史数据,运用数据挖掘技术建立准确的违约预测模型,提高金融机构的风险预警和监控能力。本文选择引入并运用Lasso-Logistic模型、决策树、支持向量机和K最邻近法这四种数据挖掘方法对银行信用卡历史数据进行实证分析,以预测精度作为模型拟合优度的衡量标准,先对原始数据中数据不平衡和数据缺失问题进行数据预处理,将样本数据分为训练集和测试集两部分,通过混淆矩阵分析比较各方法在测试集上的预测效果。并在此基础上对四种模型进行对比,旨在得到预测准确率较高的信用卡违约风险评估模型,为金融机构的决策者提供可靠的理论和技术支持。实证结果表明,Lasso-Logistic回归模型的表现最好,并且该模型对守约预测的正确率最高;同时,Lasso-Logistic模型给出了预测违约的解释变量;支持向量机模型在守约预测上的表现最差。其次,四种方法对违约的预测效果不如对守约预测的效果好,在违约预测正确率上表现最好的是决策树模型,其次是Lasso-Logistic模型,而K最近邻法在识别违约客户上的预测效果最差。通过对比可以看出,Lasso-Logistic模型和决策树模型对违约和守约预测的表现比另外两种方法相对要好,相比之下,支持向量机和K-最近邻法总体正确率均不到80%。综上所述,在实际的业务实践中,应优先考虑将Lasso-Logistic模型和决策树模型引用到信用卡的违约预测上。尽管几种模型方法的预测精度较高,但还有比较大的优化空间。因此可以考虑引入其他形式的变量或信用评价方法,进一步优化模型,使最终测试集上的预测结果精度达到更高。