基于HADOOP集群的数据采集和清洗

来源 :软件工程 | 被引量 : 3次 | 上传用户:ffgghhaz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的到来,使计算机行业蓬勃发展,各公司的业务数据也都到达P级别的数据量。本文结合Hadoop框架的中Hive和Hbase,对各个模块进行了详细的描述,重点分析了集群搭建步骤,及如何对集群的数据进行采集和清洗,并通过建立表来存储分析结果。
其他文献
保密信息的安全传输在商业贸易、网络通信、国防军事等领域有着广泛的应用需求,然而信息安全的核心无疑是密码技术,密钥分配与管理又是密码技术的关键。本文阐述了传统密码算法的密钥分配、身份密码体制的密钥分配、基于生物特征的密钥分配、量子密钥分配的常用技术,我们对它们进行了必要的分析和比较教学,达到了教学的目的,并提高了教学效果。
本文首先讨论了考试系统的防作弊分级,将其分为A、B、C、D四个等级。然后,针对达到C级防作弊要求的客户/服务器考试系统,本文提出了相应的防作弊处理策略和措施,并给出了用于
摘 要:在H.264视频编码器帧内预测模式下,为确定一个宏块的帧内预测模式,会带来很大的运算复杂度,基于图像差分的帧间预测模式快速选择算法,采用测定图像序列平坦度的思想,能够实现快速帧间模式选择。可以有效减少模式搜索次数并能保证视频编码的质量,从而可大幅度降低编码时间和视频压缩的计算量,有效地减少了帧间模式选择算法运算复杂度,有利于实际应用。  关键词:H.264;图像差分;模式选择;边缘信息;帧
针对高职院校教师未能充分利用"互联网+"发展所带来便利,提出在教学方式的教育变革问题,介绍了软件人才培养中基于互联网环境下,学赛融合程序设计能力培养,课程教学资源、信息化教学模式,师资队伍建设,结果表明利用"互联网+"可以改进教育教学方式,提升高职人才培养质量。该模式对高职软件人才培养有较好的借鉴价值。