论文部分内容阅读
信用的构建是国家经济的基石。最近几年,我国的大数据,人工智能等技术正呈现出欣欣向荣的发展态势,衍生出了很多创新商业模式,比如移动支付、P2P网贷、互联网金融平台等多种新型金融商业模式。然而,毋庸置疑的是互联网金融领域仍然还处在发展初期。在数据量迅猛增长的同时,一系列的问题已经暴露出来。互联网金融业务类型和工作流程越来越复杂,对数据价值的探索越来越深入,传统的的商业智能分析软件难以高效地处理海量、各种形式的数据。为了解决这些问题,设计并实现了一个基于Hadoop的互联网银行客户征信数据分析系统,主要由四个核心部分,ETL(数据提取、转化、加载)、数据建模、工作流调度和数据可视化,研究贡献有以下三点。第一,为了达到在征信数据分析系统数据处理效率的提升,设计并实现了基于Hadoop的一站式银行金融征信数据分析系统。该系统相比传统数据仓库,Hadoop架构下的HDFS能够支持海量数据量存储,MapReduce能够支持对海量数据的分布式处理,并且基于Hadoop的数据仓库可以支持多种数据格式,如图片、视频等。并且该系统能通过良好的调度设计进行高效的处理工作流,在实际生产过程中具有很强的现实意义。第二,为了在HDFS上面能够更节省空间减少数据冗余,效率更高的进行数据处理。在构建数据仓库中应用Data Vault模型和FS-LDM模型,通过使用上述模型,有效的减少重复取数和重复数据的存储,能够提高数据仓库的运行效率,并且支持业务数据扩展,节约数据仓库的资源。第三,利用构建十级分类的模型,实现了对征信的评级。从中可以研究分析不同个人特征数据(即大数据分析)相对应的违约率,通过数据加工的方法来建立征信信用等级体系,掌握不同个人特征对应影响到违约率的程度,可以用来征信上报和来指导风控审批业务的开展。