论文部分内容阅读
故障是所有计算机系统都应该考虑的影响自身性能的关键因素之一.虽然网格的各个计算结点都对自身结点提供各种容错机制,但是这并不能够保证作为一个虚拟计算机的网格的整体故障能够得到很好的控制和处理.因此,网格的一个至关重要的研究领域就是容错.本文首先比较了现在的网格服务容错的研究,对它们的优点和缺点做出一个完整的分析.针对现有的容错模型,我们提出了一种新的网格服务容错机制,并在GT3(Globus Toolkit 3)上实现我们的这种机制.首先我们在GT3网格服务容器中建立一个容错机制控制模块,它将为每一个用户提出的网格服务请求建立一个监控线程,这个监控线程将定期地为这个请求的网格计算服务做检查点以保证计算的中间结果不会因为故障的发生而丢失;同时监控线程还定期地检查服务的状态,当一个服务因故障而中断时,在由容错控制模块将该服务恢复到的最近的检查点信息.在做检查点时,为了能够保存GT3中的服务的中间运行状态,我们采用了修改Java虚拟机,从而扩展现有的虚拟机API,使得它有能力保存Java程序执行现场.本文第一章我们分析网格容错研究的必要性.第二章我们提出我们的网格服务容错在GT3平台下的设计以及整个设计用到的关键性技术和难点.第三章,我们将详细分析了我们研究的平台GT3,这是我们以后工作的基础.第四章我们提出要实现网格服务容错需要得检查点算法,即对Java虚拟机做出扩展,并提供API来对Java线程的执行状态进行保存和恢复.第五章,我们结合上面的工作,提出我们的容错控制模块的设计实现.最后,我们对本课题所作的工作进行一个总结和展望.