基于CRPSP-DM的互联网信贷违约预测研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:poodlihua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网金融行业如今正面临来自信贷风险管理的巨大挑战。在高维度、大批量、多缺值、快更迭的互联网大数据环境下,往日的成熟模型正在快速失效,对预测模型的新需求却已纷至沓来。激烈的金融业务竞争,要求新的预测模型准确、稳定、快速、实用且能敏捷迭代,然而当前的信贷风控研究却多聚焦于算法或模型的改良上,业界亟需对可复用数据挖掘流程的优化研究。本文认为,上述互联网信贷业务和金融风控工作对违约预测的多维度实际需求,反映了业界对可行解而非最优解的期望,以及其对预测模型可快速迭代的新要求。为此,本文做了以下工作:首先,收集丰富的金融风控类论文和相关数据竞赛获奖方案,以此作为理论研究的基础材料;其次,根据对基础材料数据挖掘过程的环节拆分,归纳出传统数据挖掘流程在互联网信贷风险预测问题上的不足;再次,结合数据分析开发实务,提出了一种满意解:基于CRISP-DM衍生的专用于金融业务数据挖掘的改进型流程模型CRPSP-DM(Credit Risk Predict Standard Process for Data Mining);而后,采用比对实验的方式演示和说明了CRPSP-DM流程的工作原理及与CRISP-DM流程的异同;最后,通过对多实验数据集的实验结果和论证分析,证明了CRPSP-DM模型作为快速高效的金融风控预测解决方案,除适用于互联网信贷数据集外,其提供的海量特征在面对其他数值型数据集时,亦能满足预测精度和敏捷开发的业务需求。本研究包含三点创新:1、方法创新。本文提出了一种高效的特征工程生成算法AGF,实现了33个AGF算法下的特征生成方法;2、流程模型创新。本文提出的CRPSPDM流程模型可适用于包含互联网金融数据集在内的多种数值型数据集的数据挖掘流程;3、研究角度创新。针对现有文献和学界成果进行分析和拆解,找到传统数据挖掘流程在互联网信贷风险预测问题的适用缺陷,结合敏捷开发和面向对象思想,提出针对问题的新挖掘流程,并在此基础上探索新流程在不同数据集的可用性。同时,本文研究为以下工作提供了贡献:1、为当前金融数据环境中的信贷违约预测提出了一种新的可行方案,用以适应数据集高维度、大数据量和正负样本失衡等问题;2、在保证较高精度的前提下,缩短了传统数据挖掘流程应用于金融风险预测问题时的开发周期;3、与基准算法模型GBM相比,使用CRPSP-DM流程开发的风险预测集成模型开发周期更短,特征有效性更高,鲁棒性更强。
其他文献
本文简要分析互联网项目的特点,对互联网项目风险管理存在的问题进行讨论,重点强调敏捷方法在互联网项目风险管理中的优势,并深入探讨通过敏捷方法提高互联网项目风险管理的方法,具体涉及关注风险管理状态、提高参与度、做好风险记录、利用会议及提升管理水平等内容,以供参考。
期刊
目的:观察红茴香注射液配合水针刀治疗足底筋膜炎的临床疗效及对其机制进行探讨,增加对足底筋膜炎治疗的新的可行方法,为临床治疗提供科学有效的治疗思路与方法。方法:本研究的60病例均为2020年01月-2021年09月期间就诊于我院骨伤门诊足底筋膜炎的患者。采用随机法将患者分为治疗组30例,对照组30例。在相同操作规范下,治疗组采用红茴香注射液配合水针刀,对照组采用复方倍他米松注射液配合水针刀。在术后采
学位
当下,新冠疫情冲击持续衍变,国际宏观经济环境面临诸多不确定因素。我国如何在稳定经济增长的同时,防范金融风险的积累和扩散,是一个举足轻重的时代命题。系统性风险定义的核心思想是风险的传染,即一个经济主体所面临的冲击,向经济系统中的其他主体迅速传递。因此,监测和控制风险在经济主体间的传染,是当下防范化解系统性风险的重点。网络模型为研究该种风险之关联性质提供了有力工具,其研究范式将各个经济主体视作网络中的
学位
近年来,数字经济在信息技术革命的推进下快速发展,它在刺激消费、带动投资、增加就业、提升创新力和竞争力等方面都具有重要的贡献。如今,中国经济进入高质量发展阶段,制造业也处于转型升级的背景之下,长三角作为我国制造业先进水平的地区之一,其数字经济发展水平更是呈现出较强的发展势头。如此一来,长三角地区如何利用好客观优势,促进数字经济与传统制造业充分融合发展,从而推动制造业提速升级,对其他地区制造业升级具有
学位
新冠肺炎疫情自2020年年初爆发以来,一直是各国媒体关注的热点。新闻作为最具渗透力和传播力的媒介,具有客观性和社会属性,是公众获得信息的重要来源。然而,在新闻报道的过程中,报道者通常指而不明地表达意识形态,使读者的认知和判断发生偏移,给读者以误判。批评性话语分析,作为话语分析领域的一个重要分支,旨在揭示语言、意识形态和权力之间的关系。但作者发现,目前对新冠肺炎疫情的新闻报道进行批评话语分析的研究并
学位
相较于生产社会而言,消费社会就是从消费的视角来研究和评判当代社会。自上个世纪八十年代以来,我国的经济水平飞速发展,物质水平显著提升,中国也由生产型社会转向消费型社会。琳琅满目的商品使得消费内容日趋多元,国民经济的发展也逐渐掀起了全民性的消费热潮。身体消费是和历史文化相伴而生的一种消费形式,自古有之,但是到了消费社会,身体从边缘走到了中心。尤其是女性群体对于身体的关注,使得身体消费成为消费社会中无法
学位
近几年,计算机科学发展,在以大数据、物联网、虚拟化、移动应用领域为核心内容的技术支撑下,全球迎来了数字化的时代。新兴企业快速崛起,传统企业加速转型,数字化转型的价值也在持续变革中更加深刻,转型的范围与内涵也在变得更加深入。例如南方电网提出“数字南网”,阿里、京东为代表的互联网企业也正在通过数字化转型赋能。自上个世纪80年代起,各产业逐步加快企业转型,越来越多的企业更青睐于资产投资少,经营方式灵活的
学位
“十三五”时期,我国大力推动创新创业发展,创新创业发展融入到经济发展中,促进我国经济发展迅猛,成效显著。“十四五”时期也将继续大力推进创新创业,营造创新创业的良好氛围。高校作为创新创业人才培养的主体,承担了国家创新创业的主要职能,同时承接了教育融合实践、创新成果转化的功能。高校众创空间是高校创新创业教育的最佳实操平台,可以帮助学生将所学的专业理论应用到实践中,真正的提升自身创业能力、创新精神和领导
学位
目前铁路电磁环境越来越复杂,有意或无意电磁干扰对列车运行控制系统(简称列控系统)的骚扰日趋强烈。应答器传输模块(Balise Transmission Module,BTM系统)作为列控系统中点式车地通信的关键模块之一,暴露在空间当中,容易受电磁脉冲干扰,严重威胁到列车的行车安全和效率。本文以河北省电磁环境效应与信息处理重点实验室实际课题为背景,针对BTM系统开展电磁脉冲耦合效应试验研究,主要工作
学位
随着工业控制系统领域中无线通信技术的迅速发展,Wireless HART作为国际无线标准,因为其低成本和强扩展性在工控现场有着广泛的应用。但其更开放的通信方式使得受到外部攻击的可能性增加。目前国内外有许多对于无线协议安全的研究,但是都侧重于协议自身安全功能方面的实现,对于协议形式化建模安全评估具有一定的局限性。针对上述研究现状,本文以Wireless HART协议作为研究对象,对于协议后期的安全检
学位