基于Hadoop的数据迁移与存储的研究

被引量 : 22次 | 上传用户:lwjjet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代到来了,所有企业每天的信息储存量以ZB统计,越来越多的企业倾向于多层次的数据管理系统,将大量的数据转移到专业的数据管理平台,能够存储、计算和管理大规模数据的大数据平台。本文设计并实现了一个数据迁移存储系统。该系统能够实现企业日常数据管理任务中数据向Hadoop大数据平台的迁移和在Hadoop平台的自动化存储归档。等待迁移的数据有非结构化的数据文件也有存储在数据库中的结构化数据。结合待迁移数据的结构特点,考虑到迁移的安全性、完整性、效率及成本,通过对几种迁移方式的对比分析,本文最终采用基于FTP服务的开发实现了大量文件的跨平台迁移。这样的迁移方式保障了迁移本身的安全性,同时也使整个系统流程更加流畅清晰。为了实现数据存储归档的自动化,数据迁移需要携带参数配置文档来说明如何处理数据。在Hadoop平台程序自动的访问到达的数据文件,通过解析参数执行命令,相当于Hadoop平台的数据处理接口。Hadoop是现在比较主流的大数据平台架构。平台上用HDFS分布式文件系统来存储和管理数据文件,同时支持MapReduce分布式计算框架的编程,能够提供安全可靠的数据存储和高效灵活的数据计算。Hive和HBase是基于Hadoop的数据管理组件,两者本质不同且各有所长,本文实现了Hive与HBase的整合,结合两者的长处实现了一种高效、灵活的复合存储体系。经测试,系统能够支持完成数据的迁移存储,同时Hive与HBase的整合使平台的数据管理性能得到了优化。
其他文献
保险是进行风险管理和控制的基本手段。职业学校学生实习责任保险保障制度的建立,有利于推动职业学校顶岗实习的健康开展,保障职业教育人才培养模式的顺利实施,完善职业学校顸岗
研究检验了组织正式(工具性支持)与非正式(职业生涯后果、上级支持)的工作-家庭支持措施对员工相关的结果变量的影响,包括工作-家庭冲突感知、离职意向和工作满意度.数据采用问卷
精神富裕有着特定的内涵。为人之基础、固党之根本、兴族之关键、强国之支柱与立世之依靠是其价值突出昭显。而精神富裕的构建,要坚持主导性、先进性、普适性三原则,构建激发
互联网技术的快速发展,使得数据的重要性越来越明显。无论是研究机构,还是企事业单位对数据的重视程度都提升到了一个新的层面。如何从大量的数据中提取出对于研究或者企业有
当前世界经济增长较为缓慢,欧洲国家经济发展受欧债危机影响持续走低,美国至今未能完全走出次贷危机阴影,新兴经济体和发展中国家的高速增长明显放缓,世界经济总体呈现“弱增
柱塞泵是典型的往复机械。为了掌握往复式柱塞泵的工作状态,测取3S175系列柱塞泵正常工况和一些故障工况下液力端的振动信号,对其进行局域波时频处理后,得到了有价值的检测部
在互联网快速发展、广泛普及的时代下,非结构化数据(文本、图片、图像、视频等)呈爆炸式增长,人们花费在信息筛选的时间也越来越多,如何从大量的数据中挖掘出潜在有用的信息成为了学者们研究的热点。在这种情况下,本文关注文本数据的挖掘,利用聚类算法对文本数据进行组织、归类,发现有用的信息,减少人工整理文档的工作量,具有广泛的应用场景和深远的研究意义。本文聚焦于文本聚类应用,分析传统聚类算法的一些优势和不足,
试验旨在研究菜粕型日粮中添加植酸酶和木聚糖酶对肉鸡生长性能,小肠氨基酸、矿物质元素表观消化率的影响。选取健康、体重一致的1 d雌性AA商品代肉仔鸡480只,采用完全随机设
互联网在人们的工作生活中占有越来越重要的地位,网站,微博,论坛,QQ,电子邮件等网络应用成为人们重要的沟通方式和信息获取来源。多种服务模式共存,互联网已演化成为一个虚拟
1 临床资料患者,女,38岁,已婚,系广东深圳人,因“全身起红斑、鳞屑1月余”于2016年9月12日入院。患者自诉于一月前无明显诱因四肢起多个粟粒大小的淡红色的丘疹,上覆少许银白