针对Hadoop集群的异常节点实时监测与诊断研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:CZXchen10
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了在较短时间内尽可能充分挖掘海量数据中的价值信息,google公司在2006年发布了 MapReduce分布式计算框架,成功应对了海量数据的分析需求。其中Hadoop作为分布式计算框架实现之一,已被大量的公司和机构部署。然而随着数据量的不断增长,小规模集群渐渐力不从心,为解决此资源瓶颈问题,越来越多的机器被加入到集群中参与计算,集群中节点数量不断增多。但随着规模递增,Hadoop集群中的一些节点行为表现异常时,及时有效的定位该异常节点并分析出导致该问题的根本原因就变得相当困难。其中某些问题不会导致节点直接崩溃,只是降低运行时效率。因此越早发现集群中的此类问题,越能及早采取措施解决。为降低此类异常节点在实际生产中的影响,本文充分考虑了 map阶段与reduce阶段的执行特性,提出了一种针对Hadoop集群实时异常节点检测与诊断方法。该方法基于正常状态下节点行为的相似性,首先,本文从Hadoop运行作业时实时产生的系统日志中提取有关任务状态相关信息,并将reduce任务个数通过执行时间转化成map任务个数,然后通过统计学方法中T检验,分析该节点是否正常。当发现某个节点出现异常时,运用根原因定位方法,通过收集和分析操作系统级性能指标,根据二八定律找出该节点利用率高于80%集群节点或者低于20%集群节点的指标,定位引起该问题的根本原因,并输出其所有相关指标,为后续错误排查维护提供信息。且所使用的算法适用于多维数据中异常节点的检测,可同时对多个维度的性能数据进行分析,指导集群运维。基于以上两个方法,在spark streaming流数据分析工具之上,搭建了 Hadoop集群异常节点实时检测和分析系统,用来表明所提检测方法的精准性和高效性。且因为map任务的执行时间是随着task任务的大小而变化的,本文使用map任务完成度(即map任务完成百分比)来评估检测的实时性。最后通过一系列相关实验测试,表明了该方法和系统的实时性和有效性,针对该系统,本文进一步评估了其额外开销,整体在5%以下,充分说明了所提方法针对问题有一定的效用。
其他文献
去年的11月份,我在手机上收到一位不在"热线"却又相当熟悉的邮友发来的短信。我不必明说发信人的名字,熟知集邮圈的人士看到本文后一定会知道他是谁。确切地说,他是我1982年在
本文阐述了科技中介机构信息资源整合与共享的必然性和可能性,提出了科技中介机构实现信息资源整合和共享的对策建议.
近年来,销售公司党委十分重视市场一线的思想政治工作,有力地保证了销售公司各项经营管理目标的顺利实现。但是必须看到,销售公司市场一线的思想政治工作还存在许多与新形势
中国的民营企业发展20年,被经济学家们认为是中国经济改革的巨大成果,遍布全国各地的非公经济已经成为我国经济保持活力的动力之一.近阶段,对中国的民营企业来说,利好消息不
粤方言又称广东话,是现代汉语方言七大支系之一,流行于广东境内广大地区、香港、澳门及广西一部分县市。在我国,现代汉民族共同语是普通话,我国公开发行的报刊杂志、学校使用
期刊
相控阵雷达广泛应用,其天线阵面对记录回放系统的数据速率要求提升。针对两种传统记录回放系统架构的不足,结合其优点,设计并实现了一种新型的基于FPGA的记录回放系统。该系统设
目的总结经护理会诊将自制凝黄散用于全院科室住院皮肤损伤患者的护理经验。方法2017年6月—2018年8月,成立会诊小组,并收集我院15个科室的43例申请护理会诊的皮肤损伤患者资
利用国家气候中心提供的1951—2012年逐日降水、温度、综合气象干旱指数、逐月NCEP/NCAR再分析资料等,采用REOF分析、动力诊断、相关分析以及合成分析等方法,从大气环流异常