论文部分内容阅读
风险控制是金融领域的核心,随着互联网金融的发展和大数据时代的到来,贷款交易次数和金额数目大幅度提升,风险管理具有重要意义。传统的机器学习模型在处理海量、高维度和复杂数据下时的训练和预测都遇到瓶颈。近几年,深度学习技术的出现解决了神经网络的浅层缺陷,能够构建多层非线性关系,在很多领域得到广泛应用。通过基于深度学习的方法减少信贷违约的风险,加强金融监管,降低金融机构的损失具有现实意义。本文从有监督和半监督学习两个方面入手,构建了两种基于深度学习的信贷违约识别模型。针对信贷违约识别的研究难点在于缺乏实时海量交易数据的标注数据这一问题,本文鉴于半监督深度学习模型的深度信念网络需要较少的标签数据,并且可对大量无标签数据充分使用,达到特征的有效提取的目的,提出了一种基于半监督深度学习的模型。考虑到传统的无监督学习孤立森林算法(Isolation Forest,iForest)在处理高维数据时存在的局限以及其在异常检测方面的优势,提出了一种基于DBN-iForest的半监督信贷违约识别模型,并且通过模拟退火算法和粒子群优化算法,实现对孤立森林算法主要参数的优化,相比优化之前,在模型的分类性能和分类精度方面得到了更进一步的提高。其次,针对传统的基于机器学习的信贷违约识别模型,在处理高维不平衡的金融交易数据上分类精度较低的问题,本文提出了一种结合卷积神经元网络和随机森林算法的监督信贷违约识别模型,实现从高维不平衡的信贷金融交易数据中识别欺诈交易。算法核心思想在于构建了两阶段工作模型CNN-RF。通过构建卷积神经网络自动进行交易数据的特征提取,然后通过随机森林算法进行分类预测。该模型充分利用了CNN能够对复杂数据进行特征提取的优势以及随机森林算法较强的泛化能力的优点。最后,本文以Kaggle比赛提供的Loan-Default-Prediction作为数据集,对本文提出的两种模型进行了验证,实验结果证实,本文提出的信贷违约识别模型相对而言,其分类性能表现的更佳。