基于大数据生态囤下的银行大数据服务平台建设

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:wp87825385
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:最近几年,全球经济形势发生了很大的变化,中国的经济形势也异常复杂。在这种背景下,我国银行的经营环境跟过去完全不同,自身的体制也发生了很大变化,在新形势下涌现出了许多新的问题。面对新时代下的新环境,银行业如何合理利用大数据的技术来推动、促进银行业务的发展和优化,在国内商业银行尚无成熟的实时流式数据处理平台的样板案例,基于开源软件框架的企业级大数据分析平台也无成功的开发和实施经验借鉴。本文阐述了借鉴主流互联网大数据生态圈技术,如flink、RTDB、CDH、AUTO ML,搭建大数据服务平台,实现并满足了客户、业务、技术的要求,为改善经营决策,和管理层提供可靠的数据支撑,使经营决策更加高效、敏捷,精确度更高;改善与客户之间的交互、增加用户粘性,不断增强银行在多个业务方面的竞争力。
  关键词:大数据;流式数据;实时处理;模型开发
  中图分类号:TP311 文献标识码:A
  文章编号:1009-3044(2020)18-0039-02
  开放科学(资源服务)标识码(OSID):
  1 项目背景
  按照新一代数据应用服务建设指引,大部分银行已经建成了以数据仓库、数据实验室等为代表的数据应用服务平台群,为银行结构化数据的处理、查询、分析和挖掘提供了强有力的支撑。但是伴随数字化战略的深入推进,通过信息化建设,进一步提升大数据获取、整合和挖掘分析能力,已经势在必行。亟待依托丰富的大数据互联网生态圈,引入最新的大数据分析工具和处理手段,实现对PB及以上级别的海量的、结构化与非结构化相融合的、分钟乃至秒级更新的数据进行高效加工、计算和处理,更敏捷、快速地响应业务创新需求。
  本平台将依托主流互联网大数据生态圈,引入开源社区软件框架,采取自主和合作研发相结合,完成银行大数据服务平台的搭建和基础数据的准备,并选择业务部门关注的场景开展应用试点,确保平台即建即用,快速产生效益。
  2 银行大数据服务平台的建设
  2.1 平台建设内容及项目目标
  旨在依托主流大数据生态圈,以CDH社区版开源软件框架为基础,实现以下目标:
  (1)搭建大数据应用支撑平台,为各应用系统提供实时的流式数据和批量数据处理服务;
  (2)搭建大数据洞察分析平台,支持全行对海量数据的挖掘分析和模型研发;
  (3)完成电子银行客户足迹分析、客服大数据分析、零售信贷风险实时预警、资金变动营销等业务场景的应用试点;
  (4)制定银行大数据平台的开发和管理规范。
  2.2 大数据应用支撑架构方案
  应用架构整体说明如图1所示。
  大数据应用支撑平台整体包括存储层、缓存层、计算层和应用层,同时包括辅助调度监控和工具类。
  存储层包括基于HDFS的文件存储和基于HBase的数据持久化存储。文件存储用来保存历史报文。数据持久化存储用来保存报文数据,指标数据,预警历史数据等。
  缓存层的设计,一方面是为了加速流式引擎的处理,这里我们使用了缓存层基于高速的内存的分布式存储Ignite.另一方面是为了处理引擎的前后层次的解耦,这里我们使用了Kaf-ka作为高吞吐的消息队列,而且能提供一定程度的持久化能力。
  在计算层,我们使用了开源社区非常活跃,成熟稳定的Spark,Flink,ElasticSearch. Flink作为流式引擎的计算主体,拥有高性能、特性丰富完整的有点;Spark作为批处理的计算引擎,具有高性能,高灵活性等特点;ElasticSearch是作为历史报文的存储、全文索引、搜索的重要组件。
  在应用层,提供各个层次的处理逻辑。批量层,包含一组基于Spark实现的工具,实现了导人、导出、校对等功能。检索层包含了对历史报文库的检索,包含历史报文、错误报文、乱序报文。
  流式处理框架包含了一系列的处理逻辑:报文解析,报文抽取,报文配对,报文筛选,交易筛选,指标计算,规则计算。其中,报文解析、报文抽取、报文配对,数据报文预处理阶段,目的是为了将合法的报文组成一个交易事件。指标计算是将一系列交易事件,组合计算成一个指标,为后面规则计算引擎提供数据支撑。规则计算则是基于Drools引擎而实现的。
  整个计算框架涉及在线流计算平台、批量计算和历史库分析三大核心部分。其中在线流计算平台包括报文预处理、指标计算、规则处理和输出联动等功能;离线处理涉及旁路验证、批量更新、数据分析、报文检索等功能;历史库的管理涉及报文历史库、日志历史库、交易历史库、指标历史库、预警历史库等核心模块。
  在线流计算平台被划分为两个部分,报文预处理部分和应用部分,它们是独立运行的Flink任务,它们之间通过Kafka消息队列连接。需要指出的是,可以有多個不同的应用同时运行。
  2.3 大数据应用支撑平台的技术创新
  流计算引擎采用kafka Spark Streaming kafka Flink的计算框架,有效避免单纯Flink在有状态的计算模型中带来的数据倾斜问题。
  采用目前业界领先的高性能的内存计算引擎RTDB.实现事务性和原子性缓存及内存内索引。
  动态规则采用Drools规则引擎编写,无硬编码。将DroolsRules通过Zookeeper进行配置的分发无须重启服务即可完成流式引擎的配置更新。
  通过前端功能包装,实现拖拉拽的方式,降低了使用门槛,提高了流作业开发效率,形成了统一的标准规范,便于统一管理和维护。
  银行生产系统建成并投入使用的集群规模是:50台洞察分析平台、30台大数据应用支撑平台,支持非保序160,000 rIPS实时处理性能;包保序40,OOOTPS实时处理性能。每天处理日志总量:10亿条,近2TB,高峰值:50万条/秒。   2.4 大数据洞察分析平台架构方案
  从大数据洞察分析平台的总体架构上,主要分为几个部分。第一是基础数据平台,使用CDH搭建,用作数据的存储和计算,第二部分是探索分析平台,通过五个通道:数据接口、统一权限、统一资源、统一调度、统一监控,对接到基础数据平台上,满足用户对于数据处理、探索、算法开发和工作流调度等功能的需求。
  大数据洞察分析平台提供统一监控运维功能,能实现对平台集群端到端的管理,对平台的每个部件都提供了细粒度的可视化和控制,从而设立了企业部署的标准。通过统一监控运维功能,运维人员得以提高集群的性能,提升服务质量,提高合规性并降低管理成本。统一监控运维功能设计的目的是为了使对企业数据中心的管理变得简单和直观。通過统一监控运维,可以方便地部署,并且集中式的操作完整的大数据软件栈。统一监控运维功能提供自动化组件安装过程,减少了集群部署的时间。提供集群范围内的节点实时运行状态视图,可以方便地实时监控集群运行状态。同时,还提供了一个中央控制台,用于配置集群。
  综上所述,通过统一监控运维功能,为大数据洞察分析平台提供以下的能力:
  (1)自动化安装过程,大幅缩短部署时间;
  (2)集群概况的实时监控,例如节点、服务的运行状况;
  (3)通过集中的中央控制台实现集群的配置更改;
  (4)多方式、交互式的数据探索分析建模功能使用户能够方便直观的进行数据探索,高效使用机器学习算法进行分析和建模;
  2.5 大数据洞察分析平台的技术创新
  大数据洞察分析平台采用容器化技术,在技术上对资源隔离、外部依赖控制、数据沙箱、算法版本控制、工作协同等方面具有独特且明显的优势。
  探索平台支持基于Web控制台方式的操作平台,实现探索模型的快速投产,通过Web前端即可进行算法的封装、打包和发布,构建成工作流框架。工作流支持共享、复制、修改等操作,新增应用能够快速复用已有的探索成果。
  同时,在ETL方案的实现上,也借助了平台产品本身的数据处理模块封装、工作流管理和调度等功能,完美的统一在一套框架之下,能够方便地进行复用和发布。 支持多种分析建模语言,Scala(使用Apache Spark)、Pvthon(Apache Spark)、Spark SQL、Hive、Markdown、Shell等。
  支持运行soL语句,对数据进行查询,处理,查看运行状态,运行结果。并且支持结果数据的可视化。历史soL可多次运行,使用已有soL提高代码复用,减少开发成本。soL执行支持使用多种引擎。
  3 应用效果
  通过建设大数据服务平台,包括应用支撑平台和洞察分析平台,为营销、风控等业务应用提供完整的支撑。提供账号安全服务,避免盗号盗卡后不能第一时间发现和销户,每天产生3000-5000次预警,准确率100%。
  对信用卡用户的某些交易进行监控,只要发生指定交易,则触发营销活动,增加银行与信用卡客户之间的互动。
  实时监控银行客户的某些消费活动,对用于非个人消费的情况提供预警。
  实时对满足条件的客户提供营销增值服务。
  4 结论
  通过搭建大数据应服务平台,为银行各应用系统提供实时的流式数据和批量数据处理服务,包括但不限于数据采集、数据存储、作业调度、数据处理、系统管理、快速扩展以及提供必要的外部数据接口。平台使用先进的流式数框架,实现流数据接入、分流处理、指标计算、规则处理、接出联动、批量调度和处理、运维和运行资源管理、组件合并部署、实时流处理的高可用机制、超时处理等。满足实时性、稳定性、可靠性、易用性、安全性等非功能性需求,可扩展性高,易于维护,并在项目建设过程中,形成平台的技术规范、设计规范、业务运营规范,完成了包括但不限于电子银行客户足迹分析、客服大数据分析、风险实时类预警、资金变动营销等业务场景的应用。最终发挥了数据驱动作用,加快实现了数字化经营与风控的目标。
  参考文献:
  [1]盛瀚,大数据在金融行业的应用与挑战[J].科技创新导报,2017(9).
  【通联编辑:代影】
  作者简介:刘宝(1983-),男,安徽怀远人,工程师,本科,研究方向:大数据人工智能。
其他文献
摘要:该文分析了江苏省“注册入学制度”的产生背景,注册入学制度是我国高等职业教育的一个发展方向, 但是,注册入学使得学生生源更加多样化,注册入学的生源质量与普通录取的学生相比存在一定的差异,这给学生培养管理工作带来了更大的挑战。因此, 本文通过对淮安信息职业技术学院注册入学类学生进行调查, 研究和探索学生培养策略。  关键词:注册入学;高职院校;双班主任制  中图分类号:G64 文献标识码:A 文
摘要:在智慧城市背景下,如何充分利用各种信息化手段,提高城市规划建设的管理水平是一个亟待解决的问题。本文分析了目前规划行业的信息化问题,阐述了烟台市智慧规划规划平台的建设思路,总结了烟台市智慧规划平台的建设内容及特点,同时对平台建设过程中的一些问题进行了有益的思考和建议。  关键词:智慧平台;GIS;规划;信息化  中图分类号:G642 文献标识码:A  文章编号:1009-3044(201
摘要:在5G时代即将到来的时候,社交电商出现了一种新模式,视频电子商务。而提到视频电子商务,就不得不提到抖音App。从2018年开始,抖音渐渐出现了商品窗口,淘宝链接,自营店等功能。2019年1月,抖音推出关联App“多闪”,抖音的社交电子商务功能更是得到了创新加强。本文以抖音App为例,研究了其发展历程、其他短视频app的优势、抖音的视频社交电商案例。  关键词:视频电子商务;短视频;社交电商;
摘要:以《离散数学》课程为例,通过若干实例介绍在课前准备、课堂教学及课后等环节中课程思政与专业知识教学融合的方法及思考。  关键词:离散数学;课程思政  中图分类号:G642 文献标识码:A  文章编号:1009-3044(2020)31-0107-02  1 课程思政  课程思政是近年来教学改革的热点和方向,它是依托各类专业课、基础课渗透思想政治教育,使学生形成正确的世界观、人生观、价值观
摘要: 虚拟实验应用于远程开放教育是一种新型的教学模式,可以有效解决远程开放教育实践性教学的难题,本文围绕远程开放教育虚拟实验的特点,探索构建远程教育虚拟实验室的方法,将学生做、教师教、教学管理人员管融为一体。提出了远程开放教育虚拟实验的角色模型,并且基于角色设计了远程开放教育虚拟实验室的建设流程,并以江苏开放大学虚拟实验室路由器配置为实例,展示了远程开放教育虚拟实验中教务管理、教师教学和学生做虚
摘要:随着智能小区的不断发展,传统的人工抄表已经不能满足现状, CAN总线智能抄表在智能小区中广泛使用。本文以CAN总线为基础,设计一个智能小区的自动抄表系统,从系统的结构、功能、硬件设计、软件设计进行研究,最终实现在小区的微机管理中心得到相应表的数据,进行计费和结算,解决了传统抄表的弊端,提高小区智能化。  关键词:智能小区;CAN总线;自动抄表;DELPHI  中图分类号: TP208 文
摘要:随着现代电子技术以及信息技术等科技理论的发展,通过计算机软件模拟硬件模块的虚拟实验已经成为中职学校的电类教学和实验的一个必不可少的部分,根据中等职业技术学校的专业设置以及对电工电子实验的需要,我们的实际教学当中经常利用软件来实现虚拟电类线路的搭建、参数调整、虚拟仿真、实验结果保存与数据恢复,本文将重点以《电子CAD》课程中的EWB软件中提供的虚拟仪器——“逻辑转换仪”的实践教学为主要内容,具
摘要:随着网络技术的飞速发展,当前网络架构出现了许多难以解决的难题,当网络结构出现问题时拓扑结构难以修改,网络中的问题不能及时处理;核心设备内置的协议不但数量多并且复杂,业务承载量不断增加,设备性能消耗严重,这些都是促进SDN网络发展的催化剂。本论文主要对SDN技术进行研究,对比传统网络与SDN网络,了解SDN网络的优势,给出SDN网络的设计方案。  关键词:SDN;技术化;OpenFlow;网络
摘要:目前,某高校某系对教师更新档案资料主要采取的是线下收集及更新的传统模式,该方式不仅仅无法及时更新教师资料,效率低下,也消耗了一定的人力资源和时间成本。针对该现象,主张研发教师档案管理系统对档案信息进行一个规范化的管理,减少非必要的成本消耗,提高整体使用效率,该系统采用Vue Koa MongoDB TypeScript的技术组合方式进行开发,并提供以权限、文件、信息、审核、通知为主要模块,该
摘要:“互联网 教育”时代,教育信息化快速发展,而微课正是信息技术与教育融合的产物,该文结合教学实际,通过举例描述办公软件类课程微课的设计以及在课堂教学中的应用,对微课如何辅助教学提出了合理化实践建议。  关键词:微课;设计;应用  中图分类号:G642 文献标识码:A  文章编号:1009-3044(2020)21-0111-02  开放科学(资源服务)标识码(OSID):  1 引言  201