论文部分内容阅读
集群(cluster)是指由高性能网络或局域网物理地互连的计算机(节点)的集合,是可扩展并行计算体系结构的一种具体实现方式。集群做为一种低成本、高性能的并行计算机系统,在并行处理工作中应用广泛。集群系统监控是掌握系统各节点运行状况和性能发挥情况的重要手段,监控系统根据不同的结构和用途,目前的开发多种多样。 本文针对目前使用带宽达20Gb/s的InfiniBand高性能网络搭建集群时常用的系统结构,重点研究以下几个方面: 监控系统对集群造成干扰的原因和降低干扰的可行办法。监控系统对集群系统的干扰主要是频繁的数据采集和网络传输所占用的带宽,另外非法用户的入侵和闲置系统服务对系统资源的占用也是造成干扰的一个因素,文中提出可行办法改善这一状况。 文中提出使用二叉树结构进行扩散式快速收集监控数据,有效提高监控数据收集效率。二叉树的分层结构有助于消息的快速扩散,且由于各个节点并行运行,信息收集时的同步效率提高。二叉树的节点增长速度较快,因此,在集群系统规模扩大时,更能体现其优越性。 集群系统的安全检测是保障集群系统不受干扰、安全稳定运行的重要手段,文中根据监控系统结构,提出网络安全检测和系统安全检测的方法。 最后结合集群监控软件CLS的设计和开发,研究降低监控系统对集群的干扰和扩散式收集监控数据方法的可行性,并实现相关算法。CLS采用三层监控结构,改善以往采用两层结构时对节点资源的过多占用,CLS将监控系统与集群的主控节点分离,添加监控服务器,负责监控数据的收集和安全检测,并且将大部分数据交由监控服务器处理,大大降低驻留程序在节点机上的资源占用,最后介绍监控软件的可视化开发和基于Web监控的实现方法。 文中深入分析如何降低监控系统对集群的干扰以及快速准确地采集数据的方法,对于任何规模的集群,监控系统都可以正常、稳定的工作,提高监控系统的可移植性和可扩展性,本文的研究对开发大型集群系统的监控软件时,提高监控效率,降低对集群系统的干扰具有很好的应用价值。