基于深度学习的信贷违约识别方法的研究

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:fengrui0216
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
风险控制是金融领域的核心,随着互联网金融的发展和大数据时代的到来,贷款交易次数和金额数目大幅度提升,风险管理具有重要意义。传统的机器学习模型在处理海量、高维度和复杂数据下时的训练和预测都遇到瓶颈。近几年,深度学习技术的出现解决了神经网络的浅层缺陷,能够构建多层非线性关系,在很多领域得到广泛应用。通过基于深度学习的方法减少信贷违约的风险,加强金融监管,降低金融机构的损失具有现实意义。本文从有监督和半监督学习两个方面入手,构建了两种基于深度学习的信贷违约识别模型。针对信贷违约识别的研究难点在于缺乏实时海量交易数据的标注数据这一问题,本文鉴于半监督深度学习模型的深度信念网络需要较少的标签数据,并且可对大量无标签数据充分使用,达到特征的有效提取的目的,提出了一种基于半监督深度学习的模型。考虑到传统的无监督学习孤立森林算法(Isolation Forest,iForest)在处理高维数据时存在的局限以及其在异常检测方面的优势,提出了一种基于DBN-iForest的半监督信贷违约识别模型,并且通过模拟退火算法和粒子群优化算法,实现对孤立森林算法主要参数的优化,相比优化之前,在模型的分类性能和分类精度方面得到了更进一步的提高。其次,针对传统的基于机器学习的信贷违约识别模型,在处理高维不平衡的金融交易数据上分类精度较低的问题,本文提出了一种结合卷积神经元网络和随机森林算法的监督信贷违约识别模型,实现从高维不平衡的信贷金融交易数据中识别欺诈交易。算法核心思想在于构建了两阶段工作模型CNN-RF。通过构建卷积神经网络自动进行交易数据的特征提取,然后通过随机森林算法进行分类预测。该模型充分利用了CNN能够对复杂数据进行特征提取的优势以及随机森林算法较强的泛化能力的优点。最后,本文以Kaggle比赛提供的Loan-Default-Prediction作为数据集,对本文提出的两种模型进行了验证,实验结果证实,本文提出的信贷违约识别模型相对而言,其分类性能表现的更佳。
其他文献
随着工业的发展,环境污染问题已引起社会的广泛关注。儿童、青少年是对铅污染的敏感群体。为了解他们的血铅水平,我们收集整理了新乡市2004年10月至2006年12月来我院就诊的儿童
随着科技的进步与发展,人们能够采集到的数据规模正在不断地增加。如何从这些数据中提取有价值的信息已经成为人们关注的重点问题。粗糙集作为一种信息处理工具经过了几十年的研究和发展,已经被广泛应用于机器学习、数据挖掘等多种领域中。经典粗糙集只能够处理离散型数据,因此需要对连续数据进行离散化处理。离散化算法可以分成有监督和无监督两种算法,其中,无监督离散化算法不需要考虑类别属性,因此这类算法效率高,但是离散
病员,女,19岁,因多食,颈部增粗、突眼2年,右眼红、痛半月、低热、畏寒1W入院,入院前2年,病员因多食,颈部增粗,突眼等于门诊查甲功后,诊断为"甲状腺功能亢进症、Graves病",予
期刊
眩晕是一种运动幻觉,是多种疾病的临床症状.其临床特点是起病比较突然,常伴恶心、呕吐、耳鸣、视物旋转、面色苍白、出冷汗等.在老年性眩晕病因中,中枢神经系统及心血管系统
【摘要】在现代的英语教学中,动机策略是调动学生学习的主要影响因素,也是现阶段高中英语教学的主要方法。由于我国的教育事业起步较晚,相较于发达国家来说,在动机策略研究领域所取得的成就并不是很多,在高中英语教师动机策略研究中关于实证研究方向的内容并不多,缺少理论上的依据。任何学科的学习都离不开动机因素,动机因素是影响学生学习英语的主导项,也是学生学习的主动性和积极性的直接影响因素。学生学习英语学科,需要
宫颈糜烂是已婚妇女常见病、多发病,又是宫颈癌发病的高危因素之一,临床治疗方法虽多,但效果常不满意,多易复发.我院妇科门诊近年来应用安达芬栓(重组人干扰素α2b栓)治疗宫
主要论述了三峡水轮发电机推力轴承的制造工艺特点。对加工精度及装配精度要求高的具有超薄镜板及弹性多支柱支撑的推力轴承的加工及装配过程的特点和难点进行了分析和研究,