论文部分内容阅读
MapReduce的实质是将运行于大规模集群上的并行计算过程高度地抽象为两个函数(Map和Reduce).为了生成和优化Map任务视图,对输入的数据集进行预组织是其关键步骤.引入粗糙集中的知识约简思想并给出优化方案.首先对已有的复杂、大规模任务集进行迭代约简,得到任务更新后的子视图等价类,然后基于时间开销最小的任务集分别计算其最优属性,根据最优属性集删除冗余视图,最后得到优化后的任务组合视图,用于并行处理.仿真实验表明:与约简优化前相比,MapReduce算法在处理同一任务时避免了不必要的复杂性,在运行时