【摘 要】
:
随着我国经济的飞速发展,人民的生活消费观念悄然发生变化,消费升级不断发生,从过去的储蓄消费升级到如今的超前消费,这大大刺激了金融信贷领域的发展,消费金融、互联网金融、P2P平台风生水起。然而相关制度的不成熟、我国特有的国情等对信贷业务的风险控制提出了严峻挑战。由于行业的特殊性,信贷违约预测的数据集通常具有极大的不平衡性;近年来,对非平衡分类问题的研究在机器学习领域收到了广泛关注,并取得显著进展。非
论文部分内容阅读
随着我国经济的飞速发展,人民的生活消费观念悄然发生变化,消费升级不断发生,从过去的储蓄消费升级到如今的超前消费,这大大刺激了金融信贷领域的发展,消费金融、互联网金融、P2P平台风生水起。然而相关制度的不成熟、我国特有的国情等对信贷业务的风险控制提出了严峻挑战。由于行业的特殊性,信贷违约预测的数据集通常具有极大的不平衡性;近年来,对非平衡分类问题的研究在机器学习领域收到了广泛关注,并取得显著进展。非平衡数据集分类问题的研究方法主要包括数据集重构和算法重构。本文围绕非平衡数据集分类的两个主要研究方向,在前人的研究基础上进行相关方法的优化,而后应用于数据非平衡的信贷违约预测进行研究分析,从而借助解决非平衡数据集的问题的方法实现贷前违约预测。主要内容包括:(1)重构数据集的方法主要有欠采样、过采样、混合采样三种,本文通过分析经典过采样SMOTE方法及其各类衍生的自适应性过采样方法的特点和不足,提出了一种改进的混合采样法,该方法结合孤立随机森林异常点检测和基于局部区域正样本率的改进SMOTE过采样及Tomplink数据清除方法,目标能够解决噪声问题、类内子聚集、类内不平衡问题、类别重叠问题。通过KEEL数据集的实验验证,该混合采样法相较其他采样法进一步提高了分类效果。(2)解决非平衡分类器的另一种有效途径是通过优化分类器算法,使其适应非平衡数据集。本文通过结合改进混合采样法与Ada Boost集成分类算法,一方面对集成方法中每轮迭代的训练样本进行优化进而提高少数类样本的分类精度,另一方面也避免了过拟合情况的出现,进而提高分类模型的预测性能。通过KEEL数据集的实验验证,该方法相较传统Ada Boost方法及经典SMOTEBoost方法在AUC和G均值均有所提升。(3)本文设计的分类算法从经典的朴素贝叶斯、逻辑回归等传统统计模型延伸到机器学习领域的CART决策树、K进行、随机森林等;在模型的对比和评价方面,引入针对少数类分类的评价指标:F1得分、G均值及AUC等,对不同分类模型下不同非平衡数据处理方法的效果进行多角度的对照分析。(4)对于Lending Club提供的数据,针对非平衡数据集:在数据集重构层面,使用多种机器学习分类算法基于改进的混合采样法进行建模,结果表明本文提出的改进混合采样法在对违约人群预测的精度更高,提高了模型的效果;在优化分类器算法层面,以CART决策树模型作为基分类器进行实验分析,亦提高了对少数类样本的预测效果。从KEEL数据集的测试到信贷违约预测的应用,证明了本文所提出的优化方法具有一定推广意义。
其他文献
电信行业在每个国家都扮演着重要的作用,同时也存在着激烈的竞争。自从进入21世纪之后,我国的电信行业就飞速地扩张,在移动电话、固定电话、网络线路等多个业务领域深入到人们的生活中。随着近几年市场的饱和,电信客户流失问题越来越受到电信运营商的关注。实际上,电信客户流失始终是电信行业重点关注的领域,其中因为移动电话本身具有的流动属性,移动电话客户的流失最为严重也最受关注。在我们国家,电信客户流失之所以持续
让·西贝柳斯是芬兰19世纪著名的民族乐派代表人物,创作了许多优秀的作品,他的作品反映了强烈的民族特色和个人风格,凝聚了炙热的爱国主义情感。1893年,西贝柳斯为13至19世纪关于卡雷利亚地区的历史戏剧所创作了一整套管弦乐配乐,后摘出序曲单独成为《卡雷利亚序曲》(Op.10),另摘选间奏曲、叙事曲和进行曲3首组成了《卡雷利亚组曲》(Op.11),这三个乐章分别出自卡雷利亚历史戏剧中的三幕,分别是第三
韩礼德和哈桑提出语篇衔接理论后,受到了国内外学者的广泛重视。在翻译过程中,译者只有准确地认识和把握衔接手段才能更好的理解原文,提高译文质量。《萨拉米斯战役》(The Battle of Salamis)是一本由美国著名学者拜里·斯特劳斯(Barry Strauss)创作,由西蒙与舒斯特出版公司(Simon&Schuster Ltd)于2006年出版的著作,此书对于萨拉米斯战役做了详尽的描述。《萨拉
随着互联网与大数据的发展,以及居民消费水平的提高,个人信贷业务也不断拓展升级。风控技术是个人信贷业务持续发展盈利的核心,平台多运用大数据技术,通过策略与模型集合的方法控制可控风险。其中,对策略与规则的开发多数依靠人工使用决策树等工具进行,这一做法不仅效率低下,也使得相应策略制定的周期变长,制定的规则效用更易受到风控人员的经验、能力的影响。为此,本文探索如何基于以决策树为基模型的集成模型完成风控规则
“第二课堂”是相对于“第一课堂”而言的,是一种比较新的提法。目前学界对“第二课堂”的研究正处于发展状态中,大部分的研究都是传统的第二课堂,而在疫情期间线上教学的情况下如何开展线上第二课堂是亟待研究的问题,但相关研究较少,因此本文从“线上第二课堂”切入,以山东师范大学国际教育学院汉语国际教育专业留学生《中国现当代文学》课程为例进行教学设计研究。本文采用了文献研究、课堂观察、问卷调查和访谈的研究方法。
CUSUM控制图作为一种重要的统计工具,具有快速监控小漂移、实时跟踪预警、运用方便和费用低廉等优点,目前广泛用于工业生产、交通运输以及疾病监测等多个领域。在工业生产过程中,常用一元Poisson分布来刻画一段时间内某条生产线上产出产品中次品的数量大小,但实际过程中多元的计数型数据也同样存在广泛,因此如何对多元Poisson情况下的CUSUM控制图构造与优化有着重要的实际意义。在控制图模型中,常会用
《国际中文教育中文水平等级标准》(以下简称《标准》)是继《汉语国际教育用音节汉字词汇等级划分》(以下简称《等级划分》)以来第二个也是最新的汉语国际教育国家标准,它的发布也标志着以汉语为中心、为主导的国家级中文水平等级标准新体系的建设已迈出坚实的一步。作为面向新时期国际中文教育的国家标准,《标准》在制定音节、汉字和词汇表时都极大地借鉴了《等级划分》中的内容,但两者的研制背景和所依据的语料库等资料有所
1991年,中国最早的投资基金——一号珠信物托成立;2001年,中国基金市场上首只开放式基金——华安创新基金设立;2006年开始,在中国股市快速上行的带动下,基金的规模出现了爆发式增长。经过几十年的发展,随着多家基金公司的成立以及债券型基金、货币型基金等基金种类的相继出现,中国基金市场规模不断变大,基金投资已经成为越来越多投资者的投资选择。证券投资因其潜在的高额收益吸引了广大投资者的参与,但是证券
现如今,随着移动互联网、物联网、大数据等新一代信息通信技术的快速发展,以及制造业先进技术的不断更新,全球范围内兴起了以智能制造为核心的产业变革。以期通过通过工业智能制造解决制造业生产的痛点,提高生产效率,减少人力成本,切实的为制造业带来生产效率。目前,我国医药行业的智能制造还处于发展中,其包含药品研发和药品生产两大主要方面,其中药品生产中还包含药品包衣,药品包衣也是医药行业中重要的生产流程。本文的