数据挖掘在信用卡欺诈识别问题中的应用

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:bazzi89
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着我国经济水平不断发展以及居民消费水平的飞速提高,信用卡业务的经营范围不断扩大。在“互联网+”等理念的影响下,传统金融行业与互联网相结合,线下互联网消费金融也取得了飞速发展。信用卡作为一种方便快捷的支付工具,在经济领域得到了广泛应用。但是我国信用卡业务处于上升发展阶段,缺乏长期经验,尤其是在互联网经济辐射范围越来越大的情况下,信用卡风险控制难度进一步增加。因此本文搜集关于信用卡交易的数据加以分析处理,建立合适的分类模型并将分类结果进行对比,能够根据已知信息,对信用卡欺诈行为进行正确分类。在新的信用卡交易信息产生之前,通过合适的算法进行识别,使银行及相关发卡机构能够进行有效预测,减少信用卡欺诈给个人和银行带来的损失,这对于金融行业的稳定和经济发展具有极为重要的意义。首先,本文通过文献调查研究法,深入分析了国内外学者的研究成果,在此基础上阐述了信用卡欺诈研究的背景和意义,并介绍了国内外关于信用卡欺诈以及数据挖掘的研究现状。其次,详细介绍了信用卡的基本知识、信用卡欺诈风险理论以及数据挖掘方法,验证了基于机器学习方法下对信用卡欺诈行为进行识别预测的必要性。再次,对信用卡欺诈问题的数据特点及处理方法做了简要说明,尤其是交叉验证、正则化以及模型的评估标准。然后,以经过隐私处理的信用卡交易数据为研究样本,通过基于K-means改进的SOMTE过采样对不均衡样本数据加以处理,分别构建Logistic回归模型、Bagging算法典型代表随机森林模型和Boosting代表算法XGBoost三个信用卡风险控制模型并进行实证分析,采用混淆矩阵和AUC作为评价指标对模型结果进行对比,发现XGBoost模型对信用卡欺诈识别效果最优,从而验证了 XGBoost模型在进行信用卡欺诈识别问题方面的优势。最后,在对单个模型分析结果的基础上,详细说明了 Stacking模型的运行过程,并采用基于元分类器为逻辑回归的Stacking算法将模型进行融合,将最终实验结果与单个模型进行对比分析,最终发现模型得到了进一步的优化。最后本文根据优化后的欺诈识别模型,从银行内部和外部环境两个大方面对相关机构提出了针对性建议。本文所建立的信用卡欺诈识别模型具有系统性、针对性和高效性,为互联网环境下相关金融机构进行风险预测和控制提供了新的思路与方向。
其他文献
财务重述是通过发布临时或补充公告来更正和重新解释已发布财务报告中存在的错误信息的行为。近年来,各行业、各板块中发生财务重述的企业数量逐年增加,这种现象已经引起报告使用者、投资者和监管部门的关注和质疑。上市公司如此频繁的进行财务重述,这与企业监察不到位密切相关,CFO作为企业财务负责人,对保证财务报告的真实性和准确性负有不可推卸的责任。一定程度上,CFO的背景特征会影响CFO的行为决策,进而影响企业
传统消费金融行业在风险评估过程中经常会遇到数据量不足导致模型准确率偏低的情况,通过直接购买外部数据不仅耗费大量成本,还会由于数据异构出现数据检索及分析困难的问题。本文面向消费金融领域,提供一套完整的数据服务方案,包括可视化部署和监控的数据采集模块、数据融合模块、数据检索模块和数据分析模块。数据采集模块基于Scrapy框架进行扩展,搭配Redis数据库,在三个服务器节点上实现分布式数据采集。并以Sc
近年来,农产品伤害事件发生的频次显著增多,,社会公众对食品安全问题的关注度明显增加。加之网络传播速度的不断加快,消费者能够更为便捷的获得产品伤害危机事件信息,同时,也
随着社会的发展,能源问题正在越来越被重视,在有关提高能源利用率的大力倡导下,冷热联供系统作为一种梯级能源利用方式已经逐渐成为未来能源领域研究和发展的一大趋势。在三
目的:探讨微小RNA-320a(micro RNA-320a,miR-320a)、血管生成素样蛋白2(Angiopoietin-like2,ANGPTL2)与血管内皮生长因子(Vascular endothelial growth factor,VEGF)在非小细胞肺癌(Non-small-cell lung cancer,NSCLC)患者血清中的表达及其临床意义。方法:选取我院呼吸与危重症医学科
近些年来我国的城市轨道交通发展突飞猛进,地铁车站的基础配套设施的也不断完善,地铁交通作为人们城市工作和娱乐出行的重要工具,与人们的生活密切相关。而其地铁作为人们滞留时间最长的环境区域,因此地铁车站的热环境所带来的舒适感也越来越受人们的关注和重视。而在地铁在长期实际运行过程中,各线路地铁在不同季节则会引起乘客的不适。我国地铁中常用的两种安全门系统为屏蔽门系统和非屏蔽门系统。不同地铁车站采用不同的屏蔽
旅游对世界经济的高速与稳定增长具有重要意义,旅游兼具战略性、支柱性和综合性的行业特点,使其成为重要的经济发展路径。随着我国经济持续良好发展和居民收入水平较快提高,我国旅游人数和旅游收入持续快速增长,国家旅游局《中国旅游业统计公报》数据显示,2019年全年国内旅游人数为60.06亿人次,比上年同期增长了8.4%。全年实现旅游总收入6.63万亿元,同比增长11%。国际旅游收入1313亿美元,比上年同期
作为我国第二大肉类消费品的家禽,产肉性能是鸡最具经济价值的性状之一。其中,成肌细胞的增殖、分化是肌肉发育最关键的步骤。因此,成肌细胞的增殖与分化机制的解析已成为鸡产肉性能研究的热点之一。研究表明,VGLL2(Vestigial like family member2)属于VGLL家族,在哺乳动物、爬行动物和两栖动物中的序列较为保守,并且其表达量随着成肌细胞的分化而上升,因此VGLL2基因对动物骨骼
川西高原处于环境变化的关键区,可以敏感地反映第四纪气候和环境的变化。川西高原自早更新世以来开始发育黄土沉积物,它们是川西地区第四纪季风气候影响下产生的特征沉积物,是青藏高原东部第四纪特别是更新世以来地球环境信息记录的重要载体。但是有关川西黄土的发育模式与区域内季风兴衰变化的耦合机制等研究还不全面,同时川西黄土的物质来源及与黄土高原黄土-古土壤沉积物是否存在同源性还存在很多争议,川西高原黄土的成因、
锦屏一级水电站位于四川省凉山州境内雅砻江中下游。坝高约305 m,标准蓄水位为1880米。蓄水后锦屏一级水电站左岸边坡的变形是众多研究者关注的重点。本文通过现场调查结合前期勘察资料对左岸边坡的基本特征和变形破坏迹象进行了归纳总结,将左岸边坡的变形区域进行划分。在监测资料的基础上对左岸边坡的变形特征以及机制进行了初步的分析。通过室内试验对岩土体在蓄水过程中的劣化规律进行研究。使用Geostudio