论文部分内容阅读
随着高性能计算应用需求的发展,单台高性能计算机已经不能胜任一些超大规模应用问题的解决,这就需要将地理上分布的、异构的多种计算资源通过高速网络连接起来,共同解决大型应用问题。网格是将大量异构的、地理位置分布的资源整合成一台巨大的超级计算机,实现各种资源的全面共享。为了有效的利用网格中的资源,提高网格中资源的利用效率,及时发现产生故障的主机,分析系统性能瓶颈,帮助用户在最短时间内恢复或调整系统,网格监控就显得尤为重要;监控数据还可用来预测系统运行的轨迹,为网格动态负载均衡策略提供可靠的依据,保证网格的健壮性和可用性。本文主要的主要工作有以下几个方面:1.研究了网格监控系统的结构,并针对网格环境下的特点讨论了网格监控系统的关键问题。在总结和分析已有监控系统的基础上,提出了自己的网格监控系统的体系结构。在网格环境下,由于资源数目非常多,随着时间的推移,网格中资源的数目还会变化,因此网格监控系统在结构上必须有较好的可扩展性。监控系统的各部分之间应该松耦合,以便于监控系统在分布式环境下的部署。同时针对网格环境下的特点讨论了设计和实现网格监控系统要解决的其它关键问题。2.海量监控数据的处理技术。网格是由大量资源组成的一个资源共享系统。如此大量的资源会产生大量的监控数据,如何处理这些监控数据既可以减少其对存储资源的消耗,又尽可能的降低精度的损失,保证历史归档数据的真实性,这是海量监控数据的处理技术要解决的问题。3.监控数据的可视化问题。为了将网格作为一个逻辑上的整体,对用户提供方便和透明的访问,必须将网格中的资源作为一个有机整体为用户提供统一的逻辑视图。网格监控系统将监控的所有资源信息以各种逻辑视图提供给用户,使用户方便快捷的获取所要得到的信息,同时便于操作,符合人机交互界面的设计原理。4.实现了网格监控系统GridView并对其进行了评价。在充分分析现有监控系统的基础上,设计和实现了网格监控系统GridView,其结构具有较好的可扩展性,容易的实现对多个机群的监控,并对其性能进行了分析和评价。