论文部分内容阅读
云计算在科学研究、缩减中小企业IT基础设施投入、优化资源利用率等方面发挥着日益重要的作用。随着人们对其计算能力需求的不断增加,云计算平台中节点的数量也越来越多。硬件技术的发展使得节点的可靠性得到了很大的提高,然而,即使单个节点发生故障的可能性很小,在拥有数十万甚至上百万个节点的云计算平台中,节点故障发生的频率会变大并严重影响云计算平台的可用性和可靠性。不仅如此,节点故障还会导致任务运行失败,从而造成严重的计算和存储等资源的浪费。为了解决云计算平台中节点故障频发所带来的这些问题,当前的主要方法是给平台增加容错功能。然而,目前已有的容错系统存在时间空间开销大、人工维护成本高、故障判断不准确等问题。因此,根据云计算平台对容错功能的实际需求,本文设计并实现了一个云计算平台下具有断点恢复功能的容错系统。主要研究内容包含以下四个方面:1、分析了节点故障频发给云计算平台所带来的各种影响,总结了容错系统所需要具备的功能模块,然后以平台资源监控为基础,从云计算平台整体架构、被动容错、主动容错三个方面设计并实现了一个高效实用的容错系统。该容错系统可以提高云计算平台的可用性和可靠性,能够解决单点故障、数据丢失、任务运行失败等问题,并且具有时间空间开销小、自动化程度高、易于部署实现等优势。2、提出了一种云计算平台中任务断点保存和恢复的方案,利用网络文件系统,该方案可以实现任务断点的可靠保存,在节点发生故障后任务能够自动的从断点处恢复。3、设计并实现的主动容错方案通过负载评估来预判节点的系统状态,当负载过高时,根据节点负载状况选择虚拟机进行在线迁移,可以避免节点故障所带来的影响并降低节点故障的发生频率。4、以Open Stack为基础实现了一个整体架构高可靠的云计算平台,并将容错系统中的被动容错、主动容错方案在此平台上进行实验和测试。实验结果表明,该容错系统可以自动的完成节点故障检测和恢复,断点恢复功能可以减少因节点故障所造成的计算资源浪费。