论文部分内容阅读
随着经济的不断深入发展,人们的消费水平得到了提高,微信和支付宝等手机便捷支付方式的需求也越来越旺盛,人们的消费理念也逐渐转型,因此信用卡也逐步成为人们工作、学习、娱乐等生活中不可缺少的一种信贷产品,但是伴随的信用卡欺诈问题也接踵而至,识别出属于欺诈交易类型的信用卡用户成为了重中之重的工作。本文对欧洲持卡人信用卡两天内的28万条交易数据进行了描述性统计分析,基于正常交易和欺诈交易这两类样本对每个特征画密度直方图和累积经验分布图来研究特征的分布及利用K-S检验来量化这个特征的差异,并使用基于支持向量机的递归特征消除法(SVM-RFE)和随机森林进行特征选择,对基于以上三种方法的特征选择结果进行投票确定最终选择的特征。利用综合少数过采样技术(SMOTE)对数据平衡化,建立了Logistic回归模型(LR)对信用卡欺诈交易进行识别,以查准率(Precision)、查全率(Recall)和ROC曲线下方的面积(AUC)为主要指标对模型进行评估,经过SMOTE方法平衡化数据之后,Recall值提升了33.4%,F1值提高了24.5%,AUC提高了2.2%。接着利用GBDT来构造改进Logistic回归模型,称该模型为GBDT+LR,该模型与Logistic回归比较,使得真正的信用卡欺诈交易被更多的识别出来,其中Recall,F1和AUC再次分别提高了6.1%,3.6%和0.8%.最后根据Precision和Recall在不同阈值下相反的增长趋势并结合AUC指标给出了调节反制信用卡欺诈力度的建议。