CHAID算法并行化及其在信用风险分析中的应用

被引量 : 0次 | 上传用户:Fllyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在近几年来云计算发展的基础上,逐年兴起的大数据成为学者们研究的重点,随之而来的必是对大数据处理平台的研究。2005年诞生的Hadoop带来的并行计算模型MapReduce早已成为研究大数据的基础模型。然而2010年正式开源的后起之秀Spark平台因其擅长交互式计算和迭代计算大大超过了Hadoop的处理速度,有望成为对大数据进行信息挖掘的又一利器。数据挖掘是大数据处理的核心模块之一,处理速度要求很高,而Spark完全符合要求。目前,国家经济正在快速发展,而金融行业是国家经济的风向标,对隶属商业银行三大风险之一的信用风险地研究至关重要。因为国内外对Spark平台上的分类算法实现种类不太丰富,本文在Spark平台上研究CHAID算法的并行化及其应用。本文首先对Spark平台作了详尽地剖析,对数据挖掘下的分类算法进行了对比、总结。在此基础上对分类算法中的CHAID算法进行了改进,提出了一种使自变量间交互作用较为公平的FCHAID算法,改善了分类效果,并且结合了Logistic回归模型进行辅助检验,以期得到更好的模型。然后在Spark平台上进行了FCHAID算法的数据并行,比较了单机处理和Spark并行处理的性能。最后将FCHAID算法应用于公开的德国信用数据,对银行客户的信用行为进行分析,进而给银行建立评分模型以提供科学依据,减少信用风险的损失。
其他文献
由于液晶显示器件特殊的电光效应,其输入与输出为非线性关系,又因液晶像素对不同波长的光透过率不同,红绿蓝三通道穿透率特性表现不一致,形成不同灰阶色温的偏移。为使显示器
施工控制技术在施工技术和桥梁质量控制等方面具有重要的作用,随着斜拉桥跨度的不断增大,大跨度斜拉桥的施工控制越来越受到重视,已成为工程施工建设的一个热点。本文首先讨
飞模亦称桌模、台模,是由支架系统、平台模系统及降落滚出设备所组成的大型整体式工具式楼板模板,它可以借助起重机从浇完楼板的楼层整体脱模。飞模适用于大开间、大进深现
在"关注现实"成为时代主流精神的背景下,以逻辑推理为基本方式的教育思辨研究遭到了问题虚空、论证主观和观点晦涩的质疑,由此陷入到难以立足的危机之中。在内涵上,教育思辨
目的探讨并观察经关节镜下经膝后外侧附加入口复位内固定技术治疗后交叉韧带胫骨止点撕脱性骨折的临床价值以及安全性。方法将我院于2011年11月-2013年10月所收治的40例后交
学业规划作为职业规划的衔接工作,对大学生未来职业生涯有着重要意义.本文首先分析了大一新生在制定学业规划方法上的特点与不足,在此基础上以会计学专业为例论证了制定学业
1845年9月至1846年初,马克思、恩格斯一起写出了《德意志意识形态》。这是他们创立历史唯物主义理论体系的一部巨著,深刻阐述了唯物史观的基本内容,标志着唯物史观的创立。我
本文以1980年代王蒙的小说《春之声》和《活动变人形》为主要研究对象,结合同时代其他作家的类创作,探讨了改革时代的知识分子在现代化想象过程中对中国故事的讲述方式和对时势
实训室对于幼儿教育专业人才的培养具有重要的作用,它不仅能够提升学生的实践技能,而且还能培养学生严谨的思维方式,是实现人才培养目标的重要策略。然而,目前我国各高校中所
一千例中国人心理咨询个案的分析中国健康教育研究所徐岫茹,苗苓,俞承谋,张伯源中国正处在由封闭走向开放,由计划经济走向市场经济的转型社会,社会的变革必然反映到每一个家庭,也反