【摘 要】
:
Internet的快速发展已将人类带入大数据时代,随着互联网和传统行业的融合,企业经营活动形成的数据日益剧增,产生海量数据。但是这些海量数据以不同形式分散在企业的不同部门,
论文部分内容阅读
Internet的快速发展已将人类带入大数据时代,随着互联网和传统行业的融合,企业经营活动形成的数据日益剧增,产生海量数据。但是这些海量数据以不同形式分散在企业的不同部门,为了对这些海量数据进行深层次的挖掘和分析,需要对这些数据进行整合,将其迁移和存储在一个平台上。为此,本文研究了海量数据的迁移和存储,通过FTP实现结构化和非结构化数据的迁移,采用HDFS来存储这些数据,构建了一个基于FTP服务的HDFS数据存储和迁移系统。本文借助Hadoop大数据平台架构的优势,对基于FTP服务的HDFS数据存储和迁移系统进行了详细地设计和实现。结合Hive与HBase的优势,对二者进行了整合,设计了系统的存储体系,该存储平台支持MapReduce分布式计算框架的编程,从而提高和优化了 HDFS平台上数据的存储性能。从迁移的安全性、效率、成本等方面考虑,采用基于Java的FTP服务实现大数据的跨平台迁移,在迁移过程中,数据以文件的形式进行组织,实现了不同类型的数据的统一管理和整合管理。为了对系统进行测试,根据源数据的特点和日常数据管理,设计了三种任务的测试场景。测试结果表明,在生产运行环境下,系统能够高效完成数据的迁移和存储,具备一定的合理性和实践性,使整个迁移工作和存储性能得到了提升,具备一定的应用推广价值。
其他文献
公元660年唐朝联合朝鲜半岛东南部新罗,打败位于半岛西南部的百济,百济国王及臣僚百姓万余人因此移居唐朝。入唐的百济遗民与在唐其他民族百姓一样,经过世代融合,成为中华民
随着和谐社会建设步伐的加快,劳动者主体地位的观念在全社会不断强化,全社会都在努力加强劳动者权益保护。我国《劳动合同法》以及其他新劳动法规的相继实施和《企业职工奖惩
PPP项目的风险管理是非常重要和复杂的,从实践中吸取经验和教训是提高风险管理水平的重要途径之一。本文通过对中国PPP项目失败或出现问题案例的汇总分析,从中找出导致这些项
<正>推行工程量清单计价方法是体现“控制量、指导价、由企业自主报价”工程造价计价改革思路的一项重要措施,也是我国加入WTO与国际接轨的必然要求。建设部早于1998年提出“
刘长福,二胡演奏家、作曲家、民族器乐教育家。刘长福是中国大陆第一位获得硕士学位的二胡演奏家,现任中央音乐学院教授,中国音协二胡学会副会长、刘天华研究会副会长、中国
目的通过对焦虑相关性失眠患者的临床资料、中医四诊信息进行数据采集与统计分析,探讨焦虑相关性失眠的主要临床特点、中医证候分布规律及二者的相关性,为指导临床快速、准确
农产品地理标志是由政府审核确认的传递农产品质量信息的产品认证,发展农产品地理标志是实现农业现代化的现实选择。我国农产品地理标志发展面临管理体系不健全、产地环境污染
本文基于红旗农场土地综合整治项目实施前后的效益比较分析,找出土地综合整治中存在的问题,为第六师和团场制定相关政策提供依据,为运用科学管理模式进行土地整治提供指导,课