RDBMS到Hadoop数据与SQL迁移的研究与实现

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:henry_lin08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在传统企业中,无论是用于支撑业务的应用系统还是用于数据分析的数据仓库,大部分都建立在Oracle、MySQL等传统关系型数据库(RDBMS)之上。随着传统企业向互联网化、智能化、数据化方向转型,存储和处理的数据也日益膨胀,RDBMS的性能趋于瓶颈。RDBMS存在的问题是扩展性差或者扩展成本过高,在面对大数据问题时,显得能力不足,而Hadoop分布式计算架构具有高吞吐量、高性能、高扩展性、低成本等特点,成为很多企业用来替代RDBMS存储、计算和查询大规模数据的有效方案。在传统企业中存在大量基于RDBMS的遗留应用,如果将底层数据存储架构从RDBMS转为Hive等Hadoop存储系统,那么需要解决两个主要问题:一是大量数据的快速迁移,二是数据访问层中SQL语句的改写。  本文首先研究和讨论了Hadoop、Hive、Spark等分布式技术和ETL等数据仓库技术。然后为了解决上述两个问题进行了如下的研究:  (1)针对第一个问题,本文提出了一种基于Spark SQL的分布式ETL过程,并实现了数据迁移工具DFMover。Hive表根据用户设置的逻辑数据映射被自动创建,基于SparkSQL的ETL作业根据用户配置的参数和编写的转化过程自动生成并被提交到Spark集群中运行。通过SparkS QL可以很方便地实现数据迁移的并行化,加快数据迁移的效率,同时与DataX和Sqoop等数据同步工具进行了参数对比,在TPC-DS上进行的迁移实验表明Spark SQL迁移数据具有较好的性能,并可以通过适当调节numPartitions等参数实现性能优化。  (2)针对第二个问题,本文在查询图模型QGM的基础上结合查询树的特点,提出了一种新的查询语句表示方法EQGM,并基于EQGM实现了SQL到HiveQL的自动翻译工具QGMapper。QGMapper通过SQL解析器将SQL语句转化为查询树,再根据列、表、子查询之间的关系将查询树转化为扩展查询图模型(EQGM)。本文提出的8种不同类型的重写规则,通过调整EQGM结构转换查询树,最后生成正确的HiveQL语句。在TPC-DS上进行的查询实验证明,QGMapper可以正确翻译绝大多数的SQL查询语句并具有较强的扩展性。
其他文献
该论文从计算机视觉的几何理论出发,针对计算机视觉中的一些热点问题进行了研究.论文的主要研究内容及研究成果如下:●首先对图像匹配问题进行了研究.图像匹配是立体视觉、运
元搜索引擎通常被称为搜索引擎之上的搜索引擎。用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一
医疗术语的翻译对于科技交流十分必要。然而,由于医疗术语数量巨大,并有一定的组合特性,不能完全由字典覆盖。此外,医疗术语的翻译既有领域特性,又有句法特性,具有一定的难度。  
显露模式(Emerging Patterns,EPs)是指那些从一个数据集到另一个数据集支持度发生显著变化的项集,它们能够捕获数据库中两个数据集之间的多个属性上的差异,可以用来建立分类器。
近年来,随着社交媒体的快速发展,越来越多的人倾向在社交平台发布消息,表达自己的意见,传达自身的情感。通过汇总这些信息可以分析主体的情感倾向,从而进行舆情监控和市场营销。同
伴随着医疗信息化在国内的不断推进,顶级医疗机构在过去十年间已积累了大量电子病历。然而,电子病历中很大一部分字段仍以非结构化文本的形式保存,难以进行二次利用。自然语言处
软件集成是一种以重用现存的软件而快速地建立新软件的工程技术。利用软件的重用和集成可以有效地降低软件开发的成本及缩短开发时间,并可以提高软件的质量。目前基于Web和N_
随着PDA(Personal Digital Assistant,即个人数字助理或掌上电脑)软硬件水平的提高,其功能越来越强大,PDA的很多应用和PC联系到一起,所以PDA与PC的通信功能日益显出其重要性,
随着信息时代的不断发展,越来越多的实际流程电子化,从而推动了工作流技术的快速发展;面对现今多样的工作流管理系统的开发技术和手段,可以看到,开发一个符合标准规范、灵活性强、
随着INTERNET的发展,传真服务器的应用越来越广泛.但传统的基于PC架构的传真服务器价格昂贵,维护成本高,专用性不强,因此市场需要性价比更高的传真服务器.该文提出了以嵌入式