面向多数据源的数据迁移系统的设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:lipz7517
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据迁移是指将数据从一个存储系统传输到另一个存储系统的过程,包括对数据的选择、提取、转换等。现有的数据迁移技术大多针对某两种数据库进行数据模式的转换,存在因仅支持特定数据库之间的转换而造成的数据迁移功能不足以及可扩展性能和迁移性能低下等问题,难以满足大数据时代下企业对多源异构的数据整合、备份和分析的需求。为此,本文提出了一种可支持多种异构数据模式转换、可扩展新数据源的数据迁移技术,开发了相应的数据迁移系统,并通过Hadoop集群并行计算实现了在大数据场景下高性能迁移。主要研究工作包括:1.提出一种通过中间数据格式实现多种异构模式之间相互转换的方法,为迁移两端的异构数据模型提供抽象和通用的表示。与直接数据迁移不同,该方法首先将源数据格式转换为中间数据格式,再将中间数据格式转换为目标数据格式。以中间数据格式为中介,可有效实现各种数据格式之间的转换,降低不同异构数据格式之间模式转换的复杂度,提高新增数据源的可扩展性。2.设计并实现了数据转换模块,通过插件架构支持多种数据源的扩展。模块将不同数据源之间的通用迁移流程设计为抽象类,包装成SDK包进行二次开发,完成一类数据源与中间数据格式的转换,并作为插件提交至系统框架主程序进行解析、加载及运行。3.设计并实现了任务执行模块,基于Map Reduce框架实现高性能的并行迁移。本模块调用数据源插件,获取任务信息,进行数据统计并均等分割,将其包装成Map任务提交给分布式集群并行计算,提高迁移效率。4.设计并实现了系统管理模块以及用户交互模块,基于MVC架构提供易于用户交互的API接口。模块实现系统后端数据管理功能,包括插件的管理与解析、数据存储、消息传输等,并支持用户调用RESTful API添加、删除数据源和数据迁移任务,查看迁移任务状态等常见管理功能。通过部署测试,验证了系统对多种异构数据源的支持,无需对系统代码重新编译,即可新增和加载数据源插件,实现了对数据源支持的可扩展性。系统可以根据用户任务配置,正确完成同构或异构数据源之间的数据迁移。此外,系统在集群部署下,可横向添加节点,显著提高大数据迁移的性能。
其他文献
近年来随着电子商务兴起,纸质传媒受到冲击,导致传统实体书店的发展受到影响,一种与文创产业相结合的新型实体书店应运而生。以近20年中国3家经营较成功的新型实体书店:西西弗、言几又和猫的天空之城概念书店为研究对象,运用核密度分析、最邻近指数、空间自相关分析、Pearson相关分析等方法,分析了中国新型实体书店的时空演变及其影响因素。结果表明:①中国新型实体书店数量总体随时间增加,于2018年达到开店高
目的探讨平卧菊三七固体饮料对高尿酸血症(HUA)大鼠的降尿酸作用。方法选用雄性SD大鼠60只,体重180~200 g,随机分成6组,设空白对照组、HUA模型对照组、别嘌醇20 mg/(kg·BW)阳性对照组以及平卧菊三七固体饮料1.125、2.250、4.500 g/(kg·BW)3个剂量组,给予相应受试物连续灌胃10 d,检测各组大鼠血清中尿酸(UA)、肌酐(CRE)、尿素氮(BUN)和黄嘌呤氧
菊科菊三七属(Gynura)植物全世界约有40余种,分布于亚洲、非洲及大洋洲等地。其中多数被用作民间药物和食用蔬菜,它们所含的生物碱、萜烯及黄酮类等成分具有多种药理活性。笔者通过查阅国内外多个数据库,对菊三七属植物进行了文献调研,对目前分离得到的菊三七属植物的化学成分和多种药理活性等内容进行了整理归纳,为进一步开发利用菊三七属植物提供一定的理论依据。
船从宜昌上驶,不到一刻钟,山就高起来,绵延不断,一直到重庆。在这一千多里的长途中,以三峡的形势最为险恶。在三峡中,又以巫峡山最高、江最曲折、滩流最急、形势最有变化。开始是西陵峡,约长120里,共分四段。第一段是黄猫峡,山虽高,然不甚险;江水虽急,然不甚狭。第二段是灯影峡。江北的山虽是险峻,都干枯无味。江南的山,玲珑秀丽,树木亦青葱可爱。在这一段,
期刊