基于统计学习的数据密集型MapReduce程序执行时间预测方法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhusimeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
越来越多的互联网公司依赖大规模的数据分析作为其核心服务的一部分,如日志分析、特征提取和数据过滤等任务。通过其Hadoop实现,Map Reduce模型已经被证明是处理此类数据的有效模型。进行这种分析时的一个重要挑战是预测单独作业的执行时间。这对于资源的管理以及进度的安排有重要意义。但是Map Reduce模型程序为了解决复杂的问题,模型的程序也会变得复杂多样,如何做到在复杂环境下对程序执行时间的预测是这个问题的难点。为此,采取将问题限定在特定条件,并将其拆解的做法。首先考虑到模型的普遍性,忽略了专家级操作者通过改变参数影响性能的情况。其次,将程序应用类型限制在数据密集型程序,由于数据密集型程序具有CPU计算较少,I/O花费的时间较多,算法时间的复杂度为多项式时间的特性,有较广的实际应用范围。最终将程序应用的场景分为三类:(1)一类是某一应用程序不做改变,改变的只是数据流的场景,本文使用了KCCA模型进行了预测。该模型可以使用极少的特征就可以较为准确的预测程序执行的时间。但是我们需要从KCCA的推导过程中总结出训练的方法。而且该模型输入的特征与程序类型关联紧密,并不适合做推广,只适合于单一类型的程序预测。(2)为了应对更为复杂多样的场景,提出了基准预测模型的想法。通过对Map Reduce模型执行过程以及中间结果进行分析,根据不同阶段的不同特性提出了使用不同的预测模型进行预测,同时基于集成学习的方法将模型融合,最后验证了该模型对于同一类程序有很好的预测效果。(3)最后,本文提出了元操作的概念,并以算法归约为理论基础,将元操作归约到复杂的算法,并给出了两种适应不同情况的预测方法。一种是基于经验的预测方法。该方法在小数据集上的效果较好。另一种是基于采样预执行的预测方法,该方法更适合大的数据集。
其他文献
文化是民族凝聚力和创造力的重要源泉,是综合国力竞争的重要因素,是经济社会发展的重要支撑。在改革开放以来中国经济蓬勃发展的大背景下,我国农村文化适应社会主义市场经济
高温合金的发展与航空发动机的进步密切相关,是制造现代航空发动机、航天火箭发动机和各种工业燃气轮机等热端部件不可替代的关键材料。随着军事现代化的进一步深化,飞机、舰
目的探讨度米芬渗透泵片在额面部火器伤软组织损伤的抗菌作用。方法10只犬采用钢珠弹致伤额面部,度米芬渗透泵片植入伤口,高效液相色谱法测定软组织伤后各时间点的药物浓度,观察
Fe-Ga合金(Galfenol)作为一种新型磁致伸缩材料,由于其低饱和磁场下巨磁伸效应、良好的温度适用性及机械性能成为近年来国内外功能材料的研究热点。Fe-Ga合金呈显著的各向异
“高昌吉利”钱币中的“吉利”两字,应为突厥语ilik或ilig的汉语音译,意思为“王”,文献上一般译做“颉利发”或“颉利”,“高昌吉利”对应的汉语意思为“高昌王”。“高昌吉
花生疮痂病菌由落花生痂圆孢菌(Elsino?arachidis Bitaucourtet&Jenkins)引起,是我国花生生产上的主要病害之一。该病常造成叶片皱缩,叶柄及茎部扭曲,减弱植株长势引起减产,一
<正>~~
期刊
文言文是我国古代社会的书面交际工具。文言文阔读教学,不仅仅是教学方法问题,而且与教学思想、教学观念密切相关。中学生要不要学文言文,学多少,学到什么程度,怎样学,怎样考……对
孔孟的“君子”以其理想而现实、尊贵而亲切、高尚而平凡的人格品质,充分体现了人的主体性、创造性,内涵着超越自我、执守信念、不屈不挠、担当道义与责任等丰富精神文化意涵
低刚度零件或缘于薄壁和细长结构,或缘于材料弹性模量低,在切削过程中因切削力的作用产生变形误差,影响加工的精度和质量。因刚度低,在加工误差形成的诸要素中,切削力产生的力致加