论文部分内容阅读
ShimonPeres定律指出,如果一个问题无法彻底解决,那么不应把它看作一个问题,而应该把它当作一个事实。面对事实,只能考虑如何处理它,从而使它的负面影响降到最小,这是面向恢复计算遵循的基本准则。面对硬件故障,软件失效,人为操作失误等事实,本文研究如何通过快速恢复来降低系统MTTR从而提高分布式应用系统的可用性。
微重启是一种新型的针对大型分布式应用软件系统的低损耗、快速恢复技术,本文深入分析了微重启的技术原理和实施策略,并总结了满足适毁性的应用系统特性,接着对技术应用中可能遇到的问题进行分析,重点描述了微重启树的优化过程及其对系统可用性的影响。
在总结相关技术的基础上,本文设计了一个面向组件级应用恢复的分布式系统自愈模型SHMM,模型主要完成三方面工作:面向应用服务的自我诊断(故障检测和定位),基于微重启的自动、快速恢复,隔离于应用系统之外的恢复行为自我管理。模型应用的最终目的是在无人监管的条件下自动、快速的解决由间歇性/暂时性故障引起的系统失效,保证系统的高可用性。通过实验数据对模型进行了分析和总结。最后本文提出基于微重启的组件级更新策略,借鉴传统的更新策略,从基于时间和基于测量两个方面对组件级更新技术进行了分析和设计。相信本文所做的工作对设计和实现高可用性分布式系统具有现实的指导意义。