基于数据湖的银行OLAP系统研究与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:vkw74
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,大数据处理相关技术浪潮此起彼伏,在各行各业扮演着越来越重要的角色。而企业在大规模数据联机分析处理(OLAP,Online Analytical Processing)技术上愈发成熟的同时,一些新的问题也时刻挑战着该领域的发展。在现有银行OLAP系统中,面临着数据孤岛、烟囱式研发、数据资产化困难、主元数据变更困难、流批数据异构处理等问题,并且这些问题互相影响,难于从局部技术的改进中得到根本性解决。针对上述问题,本文从架构层面展开研究,同时结合前沿开源技术发展现状和银行运用场景,论述了新一代基于数据湖的OLAP架构级解决方案。在此首先构建了银行数据湖平台,而后探讨了基于数据湖的银行OLAP系统特性实现。本文主要工作如下:1.企业数据资产化机制构建。在银行数据湖平台层面,基于Apache Atlas构建出了数据名目展示和数据世系回溯功能模块,同时以ApacheRanger为基础,构建出了基于策略的数据访问控制机制,进而增强了银行数据资产化能力。2.湖仓一体化架构实现。基于银行数据湖平台构建基础上研发OLAP系统,其以低成本甚至是零成本继承了数据湖平台的诸多优良功能特性,在企业层面完成了数据处理中的标准化和可复用性工作,进而从架构层面进一步减少了烟囱式研发问题。3.流批一体化架构实现。在银行数据湖平台和OLAP系统研发层面,基于Apache Flink和Apache Iceberg构建流批一体化架构,该方案解决了Lambda架构下实时流计算和批处理异构导致的数据一致性、数据孤岛、运用维护困难等系列问题。4.主元数据迭代特性研发。在银行数据湖平台和OLAP系统研发层面,基于Apache Iceberg的Schema Evolution、Time Travel和相关优秀特性基础上构建了灵活的主元数据变更支持,该方案在一定程度上解决了主元数据高昂的变更成本问题。在基于银行OLAP系统研发背景下,本文对上述工作进行了较为详细的探讨。经实践,相较于传统银行OLAP系统,基于数据湖的新兴OLAP架构在前述系列场景问题上能够带来更好的解决方案。
其他文献
近些年由于互联网的快速发展,其在为我们提供便利的同时也到导致了“信息过载”的问题,而推荐系统就是为了在海量数据的情况下将用户感兴趣的物品快速准确地推荐给用户。近些年深度学习与流处理框架在推荐领域被广泛应用,相比于传统推荐模型,深度学习推荐模型表达能力更强。相比于传统的大数据处理框架,流处理框架能够更加及时地获取用户兴趣的实时变化,提升推荐系统推荐的实时性与准确性。目前的推荐系统存在以下几点问题:(
学位
制造执行软件在生产制造中的作用越来越重要,如果发生质量问题,不仅会影响生产制造过程,而且会造成重大损失。未充分考虑软件设计阶段的可信性是产生软件质量问题的重要原因,软件可信性度量方法在保证软件质量方面受到广泛重视,为了提升软件质量,需要度量软件设计阶段的可信性。本文着重关注制造执行软件设计阶段的可信性,研究制造执行软件设计阶段性质与可信性之间的关系,构建制造执行软件设计阶段的可信性度量模型。本文研
学位
十四五期间,在国家制定双碳目标的利好政策下,可再生能源发电方式逐渐在新型电力系统中占据核心地位,其中光伏发电被视为是整个可再生能源中最可靠的选择,各国也都对光伏产业发布了政策支持。随着各省光伏电站的投建和并网的规模逐渐增大,大多光伏电站都建立在环境恶劣的偏远地方,并且每个光伏电站都配置了一套独立的本地监控,仅能单独管控,且实际运维管理仍旧采用纸质+Excel电子表格的传统方式,存在数据统计困难等问
学位
房间布局重建是计算机视觉领域重要的研究课题,在室内场景理解中发挥重要的作用。布局重建任务旨在定位墙角三维坐标,重建三维房间布局。全景图的视场角(FoV)为360°,与透视图相比具有全局上下文优势,可以为布局重建提供完整的几何结构信息。最近,利用深度神经网络对全景图进行三维布局重建已经取得了很大的进展。然而,目前很多算法首先定位墙与地板边界和墙与天花板边界,再经过后处理得到墙角来重建房间布局,这导致
学位
绘画材料语言系统中,材料是区别画种的决定性因素,纷繁的材料都有其独特之处,不同材料在同一个绘画语言系统中会产生出特殊的美感。坦培拉作为一种古老的材料,以其特殊、全面、自由的语言系统为当代艺术家们的绘画创作提供了不一样的绘画表达方式。当代坦培拉打破了传统坦培拉材料绘画的局限,改变了大众对于坦培拉绘画的认知与审美方式。本文并非对坦培拉和水溶性材料进行脉络式的罗列,而是探究其发展历程,通过历史总结其发展
学位
清代是古代文学理论与文体发展的总结期,各种文体均已具备且发展比较完善。加之清代试赋制度复兴,指导士子作赋的专书开始涌现,余丙照《赋学指南》遂应运而生。《赋学指南》一书包含了余丙照对赋体源流的看法,余氏对赋体起源的观点与班固一脉相承,认为“赋者,古诗之流”。不过两者出发点则大相径庭,余氏所论是基于赋作“当隐寓深情”的认识,与班固极力强调赋作的政治功用不同。对于赋体流变,余氏亦论述了自两汉六朝至唐宋及
学位
信息化建设的飞速发展和数据采集存储能力的极大提升使得函数型数据在经济、生物、医学等许多领域都广泛存在和积累,函数型数据分析相关理论和方法得到快速发展.在函数型数据分析里一个重要的基础性问题是检验两组或多组数据是否来自同一个分布,这就是统计上函数型数据的齐性检验问题.最简单的情况是考察函数型数据的均值函数是否相同问题,这个问题已经获得了广泛研究.Cuevas等(2004)提出的基于L2范数的检验方法
学位
伴随着城市化进程的发展,交通拥堵已经成为严重的社会问题。研发高效的交通信号控制算法不仅可以降低由于交通拥堵造成的经济损失,还可以提升人们的出行效率。作为一种高效的复杂系统控制优化解决方案,强化学习被越来越多地应用到交通信号控制领域。然而,基于强化学习的交通信号控制方法其性能严重依赖于对交通环境的精确建模。受交通基础设施的限制,部分交通网络中的车辆动态信息难以实时获取,这就导致很多现有的强化学习算法
学位
在新零售时代的十字路口,企业外部面临线上平台模式创新和线下渠道消费群体拓展挑战,对内需要面对战略转型和渠道管理等发展问题。渠道作为制造商和消费者的链接桥梁,高效传递零售业中的产品和服务。在现有渠道架构下,企业需要探寻自身问题,进一步做好渠道管理工作,加强渠道成员合作关系,解决渠道冲突问题。本文研究对象A公司是一家主营体育用品的外资运动品牌公司,通过线上线下多渠道开展体育服装和运动鞋零售业务。在中国
学位
随着移动设备的发展,操作系统以及应用程序的容量都在逐渐增大。相比之下,移动系统有限的内存资源渐渐成为了系统发展的瓶颈。内存压缩技术开始被广泛应用于智能手机上,以满足日益增长的内存容量需求。为了避免内存解压时的读取放大,在现代系统中内存都是逐页压缩的,但这样会导致压缩效率的降低。在高内存压力下,快速页面需求和低效率的内存压缩之间的冲突导致了糟糕的用户体验。基于此,本文发现了合并压缩内存页面的潜力,并
学位