基于CNN-XGBoost的互联网金融防欺诈问题的实证研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:masonma
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
金融欺诈检测的目的是预测潜在的欺诈用户和欺诈行为,减少金融机构损失。随着互联网金融的快速发展,对金融反欺诈方案的需求愈发迫切。机器学习方法在欺诈检测中的应用十分广泛。模型和神经网络都是重要的分类方法,树模型可解释性更强,但分类效果十分依赖于手动设计的特征,神经网络可以自动实现特征提取,但更易过拟合。因此本文结合了这两种算法的优势,对卷积神经网络CNN与XGBoost的组合进行了研究。XGBoost是一种常用的分类方法,XGBoost引入了正则化项控制模型复杂度,大幅提升了模型的抗过拟合能力。相较于传统树模型的效果提升十分明显,但XGBoost仍然依赖于人工进行特征工程处理。CNN能自动完成特征提取,对数据中的重要特征在高维空间进行组合和筛选,但随着特征抽象程度的提高,过拟合现象大幅影响了网络的表现。本文将CNN中的低抽象度特征加入到原始特征中训练XGBoost,同时利用了 CNN自动实现特征提取的特点和XGBoost抗过拟合的特点,提高了模型拟合的上界。本文主要工作如下:(1)对数据进行预处理和先验分析。基于正负样本比例接近1:12的信用卡欺诈数据,对原始数据进行探索性分析,通过可视化了解数据分布与缺失情况并对部分数据做预处理,运用KNN填补由XGBoost根据节点分裂平均增益筛选的重要特征缺失值并对类别型变量进行标签编码。(2)设计并基于CNN实现了特征提取。CNN由卷积层和全连接层构成,由卷积层实现特征提取,全连接层进一步实现特征空间到目标空间的映射。由于全连接层十分容易过拟合,因此在网络训练完成后,只提取卷积层输出作为新的衍生变量加入原始特征训练XGBoost,由XGBoost进一步学习得到分类结果。(3)最后将XGBoost算法、CNN算法与CNN-XGBoost混合模型的分类结果进行对比,选用ROC-AUC、F1-score和平衡点BEP作为二分类性能评估指标。实验结果表明CNN-XGBoost混合模型的分类效果更好,说明该方法综合了 CNN与XGBoost的优点,在提高模型的分类效果的同时解决了特征工程依赖人工经验的问题。
其他文献
干部是一个单位事业发展的“关键少数”,干部队伍是一个单位发展的核心力量,更是一个单位形象和公信力的具体化。因此,培养、使用和管理好单位的干部队伍是事关一个单位发展的重要工作,也是干部队伍建设的重要内容。习近平总书记在党的十九大报告中指出,要建设高素质专业化干部队伍,切实落实“信念坚定、为民服务、勤政务实、敢于担当、清正廉洁”的好干部标准。这对公务员单位如何加强干部队伍建设提出了要求、指明了方向。《
水泥土墙重力式支护结构的设计主要包括整体稳定、抗倾覆稳定、抗滑移稳定、位移等。文章阐述了以上的设计计算及施工工艺和质量要求。
邓小平国际战略思想是邓小平理论的重要组成部分.它不仅是新时期中国外交的理论基础和指导方针,而且对社会主义现代化建设亦产生了重大影响.邓小平国际战略思想研究主要起自1
2010年10月28日-29日,由中国人民大学伦理学与道德建设研究中心主办,国际信息伦理学中心协办的中国信息伦理国际会议在中国人民大学隆重举行。来自德国、瑞典、英国、澳大利
通过文献资料法、专家访谈法、问卷调查法、数理统计法、比较分析法和归纳总结法,对江苏省青少年足球竞赛开展现状进行了深入调查与分析。就江苏省青少年足球竞赛的竞赛种类
复合绝缘子端部发热是一类较为常见的绝缘子缺陷.对中国南方高湿度区域内某500 kV交流线路复合绝缘子大面积发热事故进行详细调查,对绝缘子的发热机理及影响发热的因素进行了
城市公共空间是城市形象的代表,能够展现城市特色的公共空间更容易加深人们对于城市的印象。塑造具有特色的城市公共空间,提升城市公共空间的品质,从而可以提升城市的价值,解决目前我国城市发展中的一些问题,引导健康、有活力的城市形象,促进城市的可持续发展。当前我国正处于新型城镇化规划阶段,建设好城市公共空间尤为关键。我国对于城市公共空间设计的研究尚在进一步深入中,本文旨在针对目前我国城市化进程中出现的问题进
作为贵州航天人的优秀代表,葛发华和余波用爱岗敬业、一丝不苟、追求极致的工匠精神擦亮了“贵州智造”“中国创造”,为大国重器“嫦娥四号”成功探月作出了贡献。2月20日,对
边坡失稳引发的地质灾害会给人类的生命财产安全造成威胁,制约我国的经济发展。鉴于此,本文从工程实际的角度出发,探究基于高密度电阻率法的边坡稳定性监测与预警体系的建立。本文从以下四个方面进行相关研究,具体研究内容如下。(1)通过对边坡不同隐患类型的破坏机理进行分析,概化了边坡不同隐患类型的地电模型,并对不同隐患类型地电模型进行电阻率正反演数值模拟,结果表明反演数值模拟对隐患体的电阻率响应效果优于正演数
运动行人检测技术因为其在智能安防等领域具有广阔的应用前景而成为计算机视觉的研究热点。目前,运动行人检测已经在具有固定拍摄角度的简单场景中取得了较好的应用。但是实际监控场景变化多样,行人遮挡、重叠、所处环境复杂以及周围有虚警目标等问题都会对检测结果产生很大影响。因此,设计出兼具较好实时性和较高准确率及召回率的运动行人检测算法具有较大难度。针对此问题,本文在充分分析现有方法的基础上,开展了相关研究。论