随机森林算法在信用卡欺诈检测中的改进与应用

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:kamomoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息技术迅速发展的带动下,人类生活的方式发生了很大的改变,生活水平和质量越来越高,与此同时,科技的发展也产生了巨大数量的信息,各类型信息以数据的形式呈指数增长,“大数据”一词开始频繁出现在人们的生活当中。海量数据的背后是丰富的重要信息,这些信息通常为各种决策提供依据,而利用机器学习理论可以帮助人类学习其中蕴藏的有用知识。机器学习方法有很多种,随机森林是其中常见的方法之一。这是一种新型的组合分类器算法,使用性能良好,且广泛应用于多种领域。欺诈是当前信用卡业务的主要风险,由于其造成的损失数额巨大,引发了诸多研究,信用卡反欺诈领域便是当前机器学习研究的热点领域之一。但是,随机森林还存在一些缺陷。一方面,随机地选择特征,减少了数据关联性,但也会使模型训练强度降低。另一方面,在不平衡分类的问题上,使用随机森林模型不能准确地预测结果。这使得随机森林相关的优化问题十分具有研究价值。本文从算法的特征选择和不平衡分类问题两个方面进行了研究,探索其中的改进方法。一方面,在对特征选择问题的改进研究上,首先通过卡方检验得出特征的关联性,然后依据关联性的大小设定一个阈值,从而在阈值前后两个区间上随机抽样选取特征,最后将抽样出的特征集合起来,就是选择出来的特征。另一方面,在对不平衡分类问题的改进研究上,将平衡随机森林的思想与加权随机森林的思想共同考虑进来,扬长避短,从而完成对算法的改进。F1值被用于对实验结果的对比和评估。最后,本文进行了总结,阐述了对随机森林特征选择和不平衡分类问题的改善成果,并指出了后续研究的方向。
其他文献
由于加拉帕戈斯地幔柱热点与科科斯-纳兹卡扩张中心的相互作用,正在中美洲地区西海岸外向东俯冲的科科斯无震脊具有复杂的构造演化历史及岩浆作用过程。综合大洋钻探计划(IOD
基于密度泛函理论的第一性原理,研究了掺杂元素Ti,Nb和Zr取代Ca原子后对Ca(BH4)2·2NH3储氢性能的影响.通过计算体系的晶体结构、占位能、态密度及电子密度拓扑性质,分析了
健康是现今社会人类最普遍的根本需求,其定义已从疾病的消除逐渐转变为对疾病的预防,越来越多的群体关注如何主动获取持续的健康能力,这也人们是对日常健康生活方式追求与建
利用电化学方法将铂纳米粒子(PtNP)和普鲁士蓝(PB)固定到多壁碳纳米管(MWCNTs)修饰的玻碳电极(GCE)表面,成功构建了一种过氧化氢(H_2O_2)无酶电化学传感器.实验结果表明,在工作电位为-0
江泽民同志历来十分重视哲学社会科学事业。他的一系列关于哲学社会科学的创新理论思维,对于繁荣和发展哲学社会科学事业,建设有中国特色社会主义具有极其重要的意义。
中国大学生篮球联赛(简称CUBA)的开展是我国体育改革的里程碑,对促进整个高校体育事业发展具有非常重要的意义。虽然CUBA(阳光组)开展仅仅才两三年时间,但是从全国范围来看,
翻译是一种理性参与的实践活动,译者行为是译者理性操控的结果。本文以伍尔芙小说《达洛维夫人》转述话语汉译为个案,分析理性对译者行为的影响。在"真实性""真诚性"和"正当
土家族神话故事源远流长,形成了稳定的情节单元和典型的、反复出现的神话形象,它们成为最具代表性的土家族神话原型,承载了极为深厚的土家族文化内涵。土家族神话母题原型就是那些相对稳定的情节单元,主要包括推原母题原型、洪水遗民母题原型、秩序母题原型。土家族神话的形象原型指那些典型的、反复出现的神话形象,主要包括始祖原型、图腾原型、英雄原型。这些最具有稳定性的情节母题原型和最具代表性的形象原型的历代讲述及当
采用平面波展开法,数值计算了由钴(Co)方柱正方排列于坡莫合金(Py)中构成的二维二组元磁振子晶体薄板的自旋波能带结构,其中外加磁场方向平行于薄板平面.计算结果表明,自旋波的传