论文部分内容阅读
大规模集群监控系统用来监测与分析集群系统操作系统运行状态及其他一些重要的节点与集群信息(物理机集群与虚拟机集群),并通过对监测数据持久化后的数据分析来进行监控结果的呈现[1]大规模集群监控系统对集群管理与集群运行状态测量都至关重要,其监测数据可以用于集群运行错误预测及对错误的预处理来帮助管理员来有效的管理大规模集群监控系统不仅可以用于大规模集群的实时(非实时)监控,也可以用于集群资源的远程控制,所以集群管理可以使用监控系统的可视化界面对集群进行远程管理与维护随着当前移动互联网技术与智能手机技术的发展,支持手机监控与报警的监控系统能够帮助管理员与用户随时随地了解集群的运行状态与错误信息,当集群出现问题时,监控系统也能第一时间通知管理员进行错误处理传统的监控系统,大多都采用静态物理机监控方式,监控项目有限,节点守护进行对操作系统的支持有限或依赖于第三方中间件,如ganglia, SuperMon以及InteMon等另外,传统的监控系统对监控数据没有进行更深层次的挖掘或进行有限的挖掘,因为对集群的错误预测与预防支持度不够,如InteMon等最后,传统的监控系统在数据持久化方面,采用文件存储或关系型数据库存储的方式,这样对于若关系型的非结构化监控数据处理能力不强运用数据挖掘技术与开放式轻量级守护进程开发技术,并结合RPC(远程方法调用)与非关系型数据库,本论文对如何进行高效率的大规模集群动态监控做了深入的研究本文主要从以下方面阐述了大规模集群监控系统的设计与实现:1.开放式集群节点守护进程研究针对传统的封闭式节点守护进程或依赖于第三方插件的节点守护进程,并结合目前已经存在的各种守护进程的相关优点,设计出开放环境的节点守护进程,满足用户多层次,多环境的需求2.大规模集群健康诊断模型研究使用数据挖掘技术,对持久化后的数据进行MapReduce分析与挖掘,从而对整个集群的运行状况进行预测与分析,并提供给管理员可度量的评价3.大规模集群监控系统的设计和实现针对以上两点,本论文设计了一个大规模集群监控系统,该系统实现了集群中物理机与虚拟机的实时监控,并实现了报警与集群健康诊断等功能系统性能测试表明,该系统能够高效的对大规模集群节点进行实时监控,并能够对集群运行情况进行实时监测