【摘 要】
:
详细介绍了MapReduce编程框架,具体分析了MapReduce中shuffle阶段流程。分别从Map端数据压缩、重构远程数据拷贝传输协议、Reduce端内存分配优化三方面来优化和重构Shuffle。
【机 构】
:
浙江大学计算机学院,浙江大学城市学院
【基金项目】
:
清华-腾讯互联网创新技术联合实验室资助项目(2011-8)
论文部分内容阅读
详细介绍了MapReduce编程框架,具体分析了MapReduce中shuffle阶段流程。分别从Map端数据压缩、重构远程数据拷贝传输协议、Reduce端内存分配优化三方面来优化和重构Shuffle。最后通过搭建Hadoop集群,运用MapReduce分布式算法测试实验数据。实验结果证明优化重构后的shuffle能显著提高MapReduce计算性能。
其他文献
2014年是转折之年。从全球视角观察,2014年全球增长从发展中经济体转到发达经济体,2013年美国经济率先复苏,美联储缩减量化宽松改变了全球资金的流向,发达经济体走出2008年全
针对经验模态分解(EMD)的固有模态函数(IMF)选择问题,提出了一种基于能量阀值的自适应筛选方法。对筛选出的IMF分量进行信号重构后,提取重构信号时变自回归模型的时变参数特
针对EAST装置大型低温杜瓦中内外冷屏系统存在的泄漏及对外真空室真空度的影响,采用氦质谱负压真空、正压真空及吸枪法相结合的方法,确定了多处泄漏点并分析了泄漏原因,通过
通过分析比较美国及我国研究生奖助学金资助现状,结合当前十七所高校试点研究生培养机制改革的情况,初步探讨我国研究生培养机制改革、特别是奖助机制改革的基本规律和特点,
基于机器学习的垃圾邮件过滤技术是当前垃圾邮件过滤的主流方法。机器学习模型主要分为两类:以朴素贝叶斯(NB)为代表的生成模型和以逻辑回归模型(LR)、支持向量机模型(SVM)为
针对现有的手写数字识别技术不适合大规模应用的问题,提出了一种基于AP和BP神经网络的快速手写数字识别算法。首先对预处理后的样本通过AP算法(affinity propagation)聚类消
针对高含硫气田超深井油层套管的腐蚀问题,采用四点弯曲法和动态腐蚀失重法,利用自制的高温高压釜对SM-C110、TP110TS和TP110SS三种高强度套管钢在模拟工况下的腐蚀行为进行
针对C-V法的水平集图像分割法缺少局部控制能力等问题,提出了基于物体边界梯度的指数级加速因子模型,通过使用局部图像信息,该模型可以在较少的迭代次数内分割灰度不均匀图像
2009年春节刚过,网吧迎来了新一轮的更新采购高峰,恰是硬件市场平台更新换代之际,而且又处在全球金融危机的关口,几方面原因使硬件市场价格全面走至最低位。由此,各地网吧团
为解决数据仓库中海量数据的处理效率问题,可以采用数据聚集预计算的方法,但是针对海量级别数据的聚集运算非常耗费计算资源,需要巨大的计算能力和存储能力,因此提出了一组基