异构数据同步系统的研究与实现

来源 :北京邮电大学 | 被引量 : 8次 | 上传用户:litang345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决海量数据的分析需求,围绕Hive进行大数据仓库建设并在之上使用HiveQL进行统计分析是业界常用的解决方案。企业通常使用开源数据同步工具Kettle、Sqoop等将业务数据库产生的历史数据、实时增量数据以及历史文件数据同步到Hive仓库中。经过前期的调研与研究,发现开源数据同步工具存在以下问题:a)在历史数据同步任务中开源数据同步工具虽然提供了强大的功能,但操作复杂,使用门槛高;b)实时数据同步任务对线上业务数据库进行I/O操作,影响线上业务数据库性能,延迟高;c)文件数据一般存储在单台物理机器上,可能发生磁盘损坏导致文件丢失的情况,开源数据同步工具创建的文件数据同步任务无法保证客户端文件数据的安全性,同时没有提供方便的了解文件的元数据视图;d)开源数据同步工具孤立、很难和大数据统计分析业务整合到一起。本文针对以上问题构建了一个异构数据同步系统。主要研究内容包括以下四个部分:1)针对在历史数据同步任务中操作复杂,使用门槛高等问题,研究实现了一种基于Spark的历史数据同步子系统;2)针对在实时数据同步任务中存在的对线上业务数据库进行I/O操作,影响线上业务数据库性能,延迟高等问题,研究实现了一种基于Storm的实时数据同步子系统;3)针对文件数据同步任务无法保证客户端文件数据的安全性,同时没有提供方便的了解文件的元数据视图等问题,研究实现了一种基于分布式存储系统HDFS的文件数据同步子系统;4)针对开源数据同步工具孤立、很难和大数据统计分析业务整合等问题,研究实现了一种基于Quartz定时任务的可视化大屏子系统。论文的成果是设计开发了主要包含上述四个子系统的异构数据同步系统,解决了开源数据同步工具的不足,实现了将历史数据、实时增量数据以及历史文件数据同步到Hive仓库中,并实现了对Hive仓库中的数据进行自定义的可视化统计分析,对建设大数据平台数据同步系统有一定的借鉴作用。
其他文献
对多件独立事件的发生件数的数学期望进行了研究,通过例题提出了猜想并最终通过数学推导形成了结论公式.
舆情预测是实现网络舆情监控最重要的一个环节,针对舆情演化过程中的拐点会影响舆情预测的情况,在ARIMA和灰色预测的基础上,提出了一种基于拐点的预测方法,建立了分段和镜像
政府绩效有“显绩”与“潜绩”之分,传统的绩效评估模式往往只注重显绩,而忽视了潜绩。本文构建了政府绩效评估“五度五力”模型,在“显绩”上采用人民群众满意度、经济发展
流动人口是中国户籍制度下的一个概念,在国际上,类似的群体被称为“国内移民”。中国是一个拥有众多“国内移民”的大国。有了流动人口就有了流动儿童。当前,关于流动儿童的说法
运用文献资料、逻辑分析等研究方法,以一般产品消费心理为基础,对体育赛事作为产品时的消费过程进行环节划分,并将其分为受众价值潜力期和实现期两个阶段.研究指出,在体育赛
小学语文教学离不开儿童文学,儿童文学与儿童教育之间存在着千丝万缕的联系。通过儿童文学这种教学资源,小学语文课程的教学内容因而变得更加丰富和有内涵,小学教师的教学工
气温是最重要的气象因子之一,空间插值为台站气象数据降尺度提供了有效方法。本文利用江苏省67个气象台站2003年的逐日气温资料计算逐月平均气温和年平均气温,结合空间分辨率
基于国际产业大转移、我国传统产业集群发展的困境,及企业跨区域发展方兴未艾的现实背景,及当前关于集群研究多停留在集群内部,并将集群整体作为研究对象的理论背景,本论文选
自2005年,我院护理部对护理质量控制体系进行了调整,在全院护士长范围内推荐护理质量控制组长(下称质控组长)进行质量管理,效果满意.现报告如下.……