基于历史的云平台故障注入测试

来源 :南京大学 | 被引量 : 0次 | 上传用户:lzm8020117
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云计算是一种能够通过网络以便利的、按需付费的方式获取计算资源并提高其可用性的模式。近年来,以云计算为基础的服务平台——云平台逐渐成为各大企业数据存储和业务部署的主要平台。由于云平台结构复杂、服务多样,发生故障在所难免。为了提高云平台的可靠性,开发人员在设计云平台时加入了容错机制,目的是在发生故障的情况下也能保证云平台的正常运行。但是容错机制并不能保证云平台完全可靠,因此我们还需要对云平台的可靠性进行检验。故障注入是检验云平台可靠性的方法之一,通过人为地将故障注入正在运行的系统中,观察系统动作并判断系统的容错机制是否正常工作。现有的故障注入方法侧重于分析待测系统特征以确定故障注入点,属于白盒或灰盒测试,对复杂的云平台来说,这一工作无疑要耗费大量的时间。因此,我们提出一种不依赖于系统信息的黑盒测试方法以提高检验效率。本文在现有工作的基础上做了以下几个方面的工作:第一,我们收集了云平台历史宕机事故报告,并分析其中故障模式出现的规律。我们发现,云平台中发生的故障类型具有重复性,在此基础上,我们提取了这些故障的特征,包括所在组件、根因、产生的影响、修复方法等。第二,通过对云平台历史宕机事故报告的分析,我们发现很多事故当中的故障并不是单一出现的,并且多个故障之间具有关联性、组合性,我们深入分析了多故障之间的关系以及故障之间的组合形式,在此基础上,为了尽可能完全地检测云平台的可靠性,我们提出在故障注入过程中需要对多故障进行组合注入。第三,在对多故障进行组合的过程中我们发现,由于云平台的复杂性,故障种类的多样性,多故障之间的组合会产生组合空间爆炸问题,针对这一问题,我们做了初步探究,并提出了几种约减策略。第四,基于上述工作,我们提出了一种基于历史的故障组合方法,并利用历史故障数据,结合基础云平台架构进行模拟实验,实验结果表明我们提出的基于历史故障进行故障组合注入方法是有效可行的。
其他文献
勃起功能障碍(ED)被视为心血管或外周血管病变的先兆或身体健康状况的晴雨表,严重影响患者身心健康和男女双方性生活的质量。现将近年欧洲、美国及中国有关ED的指南进展综述
新世纪以来,中国的蔬菜产业迅速发展。蔬菜产量之所以节节攀升,原因则是化学药品、生长激素、杀虫剂等进行的粗暴催生方式。商家为了获利,恶意提供有毒的蔬菜产品,一经曝光,
高空台后舱压力控制系统是航空发动机进行高空模拟试验的关键子系统,其调节品质的优劣直接决定着航空发动机空中工作环境模拟的准确性和可靠性。本文所研究的某高空台后舱压力控制系统已经过多次技术升级,但其控制器仍采用常规的PID控制方法。在进行航空发动机高空推力瞬变等过渡态试验时,高空台后舱压力控制效果不能达到预期,影响着发动机试车安全与性能的评定,急需对该系统控制器进行非线性控制方法研究。同时,由于航空发