【摘 要】
:
随着大数据时代的到来,为了更好地利用大数据,需构建大数据处理平台进行大数据分析.Hadoop是大数据领域最流行的大数据处理平台,它是集分布式计算、存储和管理为一体的生态系
【基金项目】
:
江阴职业技术学院课题(17E-JS-25);江苏省软件与服务外包实训基地子课题(2017-PPZY-A-R-19)
论文部分内容阅读
随着大数据时代的到来,为了更好地利用大数据,需构建大数据处理平台进行大数据分析.Hadoop是大数据领域最流行的大数据处理平台,它是集分布式计算、存储和管理为一体的生态系统.Hadoop的MapReduce框架是负责分布式计算的.目前流行的Spark框架与MapReduce类似,也是一个分布式计算平台.而相比于MapReduce,Spark的速度更快且提供的功能更丰富.Spark只是一个计算平台,本身并没有提供分布式存储和管理,Spark的计算依赖于Hadoop生态系统中的分布式文件系统HDFS,以及集群资源管理器Hadoop Yarn.因此将Spark与Hadoop相结合来构建大数据处理平台,可提高算法运行效率和处理规模.本研究搭建了Hadoop集群和Spark集群,完成了大数据处理平台的构建.最后在搭建好的集群上运行了实现单词词频统计的Word Count程序,验证了大数据处理平台搭建的成功.
其他文献
乾隆和华盛顿两个人一个是留辫子的皇帝,一个是穿西装的总统。他们怎么可能碰到一起呢?但这不是一个穿越的问题,乾隆与乔治·华盛顿是同时代人,而且都是在1799年去世的,乾隆死在年头,华盛顿死在了年尾。两个人身上的现代性实在相差太大,在某种程度上这也就是两个国家的差异。 大清帝国前后延续了268年,总共有10个皇帝,康熙雍正乾隆在位的100多年被人称为“康乾盛世”,但如果站在人类发展史的角
社会分配问题复杂但也简单:十个人吃饭,管事的也准备了十份饭,只要是自己人都有吃的。既然都有吃的,也会都不好好干事,且不干还不知足,个个都有一肚子牢骚。大家吃什么由管事一人说
针对福建紫金矿业污染事件,当地居民称污染问题与地方政府保护有直接关系。记者了解到,紫金矿业公司管理团队有浓厚的官员背景,多名管理人员曾供职于政府部门。知情人士表示,“该
2001年12月中国加入世界贸易组织(WTO).这一重大事件和中国于2001年开始的第十个五年计划的事实值得我们仔细考察中国的纺织业和纺织机械业.……
本文介绍了一种用于聚酯缩聚的、新型高性能催化剂"C-94".它是碳/硅混合氧化物,抗水解,无毒,对环境无害.这种催化剂适合所有生产PET的常规工艺.用这种新催化剂制取的PET在性
当前,我国已经进入改革发展的关键时期,县一级的地位和作用日益重要。“郡县治,天下安”。中央政治局委员、中组部部长李源潮指出,县乡村的改革发展稳定,关键在党、关键在人、关键
【正】人性化管理的潮流使领导方法的人性化成为领导科学研究的热点,彼得·圣吉在《变革之舞》一书中,从学习型组织的角度,用"领导生态学"的概念(有的学者把它翻译成"生
就在我穿上军装的那一天,妈妈叮嘱我好好干,大学生圆了从军梦,到了部队好好干。
众所周知,腐败是侵害人类社会健康的毒瘤。领导干部的配偶、子女、秘书、司机等,作为其"身边人",虽职位不高,但身份却非同寻常。由于其拥有特殊的身份,有的代领导干部收礼送礼,
平时我最喜欢的几个字是:流水不争先。按说我常年从事竞技项目争的就是个胜负,在别人眼里也是一个凡事认真力图完美的A型血性格,但这么多年下来,我还是对保持平和的心态,用水滴石