异构数据同步系统的研究与实现

来源 :北京邮电大学 | 被引量 : 8次 | 上传用户：litang345

【摘要】

：

【作者】

：

刘行行

【出处】

：

北京邮电大学

【发表日期】

：

2019年01期

【关键词】

：

异构数据 Spark 实时同步定时任务数据可视化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为了解决海量数据的分析需求,围绕Hive进行大数据仓库建设并在之上使用HiveQL进行统计分析是业界常用的解决方案。企业通常使用开源数据同步工具Kettle、Sqoop等将业务数据库产生的历史数据、实时增量数据以及历史文件数据同步到Hive仓库中。经过前期的调研与研究,发现开源数据同步工具存在以下问题:a)在历史数据同步任务中开源数据同步工具虽然提供了强大的功能,但操作复杂,使用门槛高;b)实时数据同步任务对线上业务数据库进行I/O操作,影响线上业务数据库性能,延迟高;c)文件数据一般存储在单台物理机器上,可能发生磁盘损坏导致文件丢失的情况,开源数据同步工具创建的文件数据同步任务无法保证客户端文件数据的安全性,同时没有提供方便的了解文件的元数据视图;d)开源数据同步工具孤立、很难和大数据统计分析业务整合到一起。本文针对以上问题构建了一个异构数据同步系统。主要研究内容包括以下四个部分:1)针对在历史数据同步任务中操作复杂,使用门槛高等问题,研究实现了一种基于Spark的历史数据同步子系统;2)针对在实时数据同步任务中存在的对线上业务数据库进行I/O操作,影响线上业务数据库性能,延迟高等问题,研究实现了一种基于Storm的实时数据同步子系统;3)针对文件数据同步任务无法保证客户端文件数据的安全性,同时没有提供方便的了解文件的元数据视图等问题,研究实现了一种基于分布式存储系统HDFS的文件数据同步子系统;4)针对开源数据同步工具孤立、很难和大数据统计分析业务整合等问题,研究实现了一种基于Quartz定时任务的可视化大屏子系统。论文的成果是设计开发了主要包含上述四个子系统的异构数据同步系统,解决了开源数据同步工具的不足,实现了将历史数据、实时增量数据以及历史文件数据同步到Hive仓库中,并实现了对Hive仓库中的数据进行自定义的可视化统计分析,对建设大数据平台数据同步系统有一定的借鉴作用。

其他文献

关于多件独立事件发生的件数的数学期望的探究

对多件独立事件的发生件数的数学期望进行了研究,通过例题提出了猜想并最终通过数学推导形成了结论公式.

期刊

多件独立事件数学期望公式数学归纳法

基于拐点的网络舆情预测研究

舆情预测是实现网络舆情监控最重要的一个环节,针对舆情演化过程中的拐点会影响舆情预测的情况,在ARIMA和灰色预测的基础上,提出了一种基于拐点的预测方法,建立了分段和镜像

期刊

网络舆情ARIMA灰色预测拐点

“显绩”与“潜绩”视角下政府绩效评估“五度五力”模型研究设计

政府绩效有“显绩”与“潜绩”之分,传统的绩效评估模式往往只注重显绩,而忽视了潜绩。本文构建了政府绩效评估“五度五力”模型,在“显绩”上采用人民群众满意度、经济发展

期刊

政府绩效评估五度五力模型显绩潜绩

流动家庭学前儿童“入园难”的案例及启示

流动人口是中国户籍制度下的一个概念，在国际上，类似的群体被称为“国内移民”。中国是一个拥有众多“国内移民”的大国。有了流动人口就有了流动儿童。当前，关于流动儿童的说法

期刊

入园难民间力量学前儿童幼儿园

基于体育赛事消费心理的新经济形式研究

运用文献资料、逻辑分析等研究方法,以一般产品消费心理为基础,对体育赛事作为产品时的消费过程进行环节划分,并将其分为受众价值潜力期和实现期两个阶段.研究指出,在体育赛

期刊

体育赛事消费心理新经济

儿童文学在小学语文教学中的现状及对策分析

小学语文教学离不开儿童文学,儿童文学与儿童教育之间存在着千丝万缕的联系。通过儿童文学这种教学资源,小学语文课程的教学内容因而变得更加丰富和有内涵,小学教师的教学工

期刊

儿童文学小学语文教学现状对策

气温插值中不同空间插值方法的适用性分析——以江苏省为例

气温是最重要的气象因子之一,空间插值为台站气象数据降尺度提供了有效方法。本文利用江苏省67个气象台站2003年的逐日气温资料计算逐月平均气温和年平均气温,结合空间分辨率

期刊

协同克里格普通克里格插值气温

集群企业跨区域发展的机制及模式研究

基于国际产业大转移、我国传统产业集群发展的困境,及企业跨区域发展方兴未艾的现实背景,及当前关于集群研究多停留在集群内部,并将集群整体作为研究对象的理论背景,本论文选

学位

产业集群集群企业跨区域发展网络权变

设立护理质控组长进行持续质量改进

自2005年,我院护理部对护理质量控制体系进行了调整,在全院护士长范围内推荐护理质量控制组长(下称质控组长)进行质量管理,效果满意.现报告如下.……

期刊

护理质控护士长例会护理部持续质量改进

异构数据同步系统的研究与实现

其他学术论文