论文部分内容阅读
随着搜索引擎、云计算、人工智能这些新兴技术的成熟和普及,人类在日常中产生的数据量出现了前所未有的爆发式增长,催生了“大数据”时代的到来。在这种背景下,互联网与传统金融业的“碰撞”使得互联网金融应运而生。互联网金融的诞生满足了中小微企业和大众金融消费者的需求,弥补了传统金融机构的不足,为普惠金融的发展提供新的思路。其中,以电子商务平台为核心的电商金融在所有互联网金融模式中影响最大,引起了整个行业和社会的高度关注。电商金融行业本身就是一个基于数据的产业,行业内拥有着大量的多源异构数据,一方面是自身内部电商平台的海量历史交易数据;另一方面是互联网和社交媒体上的外部数据。因此,如何具备从电商金融大数据中提取和挖掘所蕴含数据价值的能力将决定未来整个电商金融行业的竞争力。本文针对上述问题,在分析电商金融大数据特征及价值、国内外基于空间关联规则的挖掘方法以及大数据挖掘研究现状的基础上,采用分布式搜索引擎技术,定制网络爬虫从电商金融行业的多源异构数据中获取所需要的银行卡和淘宝店铺数据,设计相应的Spark并行算法对数据预处理,建立倒排表和二级索引文件,为后面的大数据分析平台提供数据源。确定数据来源后,运用MECE分析法并结合行业内多位金融业务专家评分得到企业信用风险评价候选指标集及量化方法,分析指标相关性和风险定级。接着,利用大数据机器学习库中的随机森林算法对候选指标集特征选择,设计基于Hash结构的多级空间关联规则算法来挖掘企业风险信息,构建出信用风险评估与智能预警模型。最后,将机器学习、挖掘算法库、信用风险评估与智能预警模型、大数据存储与分布式计算能力进行封装,搭建基于Spark on YARN的电商金融大数据分析平台,对所研究模型的准确度和平台实用性进行验证。以淘宝平台某旗舰店一年的日常经营数据、银行卡资金往来数据和管理层群体数据作为数据源,利用电商金融大数据分析平台对店铺进行经营行为分析,提供信用风险评估与审批授信和贷后风险预警管理服务,证明构建的信用风险评估与智能预警模型能够达到预期要求,具有较高的可信度。