论文部分内容阅读
为提升系统容错能力,降低容错开销,提出一种适应于云训练系统的自适应副本容错策略.首先分析了云训练系统内涵以及容错结构.通过分析确定自适应副本策略待解决的三个问题:节点选择,副本数量以及位置分布.引入节点活跃度评价节点是否需要生成副本;结合容错需求,得到需要生成的副本数量;通过加权升序匹配算法,实现位置分布的确定.实验中,引入容错度等概念对策略进行评价,数据表明自适应副本容错策略可以有效保证云训练的容错能力,降低容错开销.