面向海量金融数据并行加载技术研究与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:lanshi2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,金融、通信、教育等行业对信息化的需求不断地增加。在国内,信息化发展已经有几十年,金融行业更是成为信息化程度最高的行业。随着用户的增长和业务的更新,金融行业数据库的数据量也不断地增长,其数据量高达几百TB甚至PB级。通常,金融企业需要大型数据库系统来存储和管理海量金融数据。同时由于业务需求,不同金融系统间需要大量的数据共享,因此不同系统间需要大量的数据迁移和加载。海量金融数据的存储和加载,给金融系统提出了严峻的挑战。本文主要针对海量金融数据的数据加载问题展开研究,并以一个实际金融系统作为研究对象,结合其底层数据存储架构及数据加载特点,设计和实现适用于该系统的海量数据加载方法。主要贡献如下:1.基于交通银行历史库系统,我们分析了历史库系统的海量数据存储和加载实现,其底层数据存储采用分布式数据库Ocean Base来解决海量数据存储的问题。通过分析历史库的数据加载特点,我们发现新存储架构下的历史库系统面临海量数据加载问题。为此,我们提出了两种解决思路。2.针对OceanBase数据加载的实现,我们设计和实现了两种加载方法:基于SQL INSERT的数据加载和直接更新内存表的数据加载。前者是一种常见的数据导入技术,主要通过并发执行插入SQL来实现数据导入。后者则根据OceanBase特有的存储架构,将数据加载问题转化为B+树的并发插入问题。这种加载方法只适用于OceanBase。相比于前者,该方法可以减少网络传输和事务处理量,从而提高加载效率。实验表明该加载方法较好地解决OceanBase数据加载问题。3.根据历史库系统的数据加载特点,为了提高整体的数据加载效率,我们提出一种多任务并行加载的方法。该方法将所有加载任务切分到多个加载服务器上,充分利用加载服务器和数据库系统的资源,使得加载任务并行运行于不同加载服务器上。4.为了获取更好的并行加载效率,我们提出了两种任务调度策略:基于表级任务调度和基于细粒度的两阶段任务调度。这两种调度策略分别基于不同的划分粒度,被应用于多任务并行加载过程中,使尽可能多的加载任务并行执行。实验表明,两阶段调度策略可以更充分地利用加载服务器资源,获取更好的加载效率。
其他文献
随着互联网上数据规模的日益增长,人们准确、快速、全面获取信息变得越来越困难,语义网(Semantic Web)通过对互联网增加语义支持,使机器能够理解数据的含义,帮助人们快速获取信息
采用高能球磨的方法,直接分散铋粒制备纳米铋粉。实验选用无水乙醇为液相介质、聚乙烯吡咯烷酮(PVP)和硬脂酸作为复合修饰剂,通过正交实验研究铋粒的加入量、复合修饰剂的相对用
摘要:本文通过问卷调查、访谈等调研方式,探讨了“90后”大学生不同群体的形成特点和规律,分析群体分化原因,探讨教育管理对策,丰富教育内容,完善教育机制,为进一步加强和改进新时期
表面形貌的精确描述在许多领域诸如材料、生物医学、摩擦学和机器状态监测等领域变得越来越重要。开发了一种基于激光共焦显微镜和图像处理技术的研究磨损表面及表面参数的新
为充分利用现有观测数据来确定地面点位置,根据立体像对的前方交会原理,通过建立目标点到多条同名射线距离的加权平方和作为目标函数,对其求一阶和二阶导数,得到多像空间前方
业绩是回馈创新者的礼物。$$ 重庆市解放思想,因地制宜,勇于进行水利投融资体制改革,最终形成了政府主导、市场运作、社会参与的多元化水利投融资格局。按以往的速度和规模,重
报纸