论文部分内容阅读
随着信息化建设的深入,IT系统规模不断扩大,IT环境日益复杂,政府机构和企业的正常运作越来越依赖于IT系统。但IT系统一定存在着故障和不可用的情况,为了能够及时发现IT系统故障,减少IT系统不可用的时间,可以通过IT运维监控系统自动化的监控整个IT系统。本文研究了IT运维监控系统,主要工作如下:首先分析了一个现代化的IT运维监控系统的业务需求,IT运维监控系统需要管理IT系统中的软、硬件设备,为这些被监控设备添加一系列与整个IT系统健康状况有关的指标,设定这些指标的正常值范围。周期性的去获取这些指标的值,当获取到的指标值超出预设的正常值范围时,IT运维监控系统判定IT系统处于异常状态,及时触发告警并通知运维人员进行处理,从而实现对IT系统的自动化运维监控。其次对IT运维监控系统结构进行抽象划分,将IT运维监控系统划分为设备监控层、系统告警层、可视化层。在设备监控层中,通过一系列的标准协议(如SNMP、WMI、JDBC、SSH等)与被监控设备进行通信,获取被监控设备的指标值;在系统告警层中,对采集到的设备值进行告警判定,触发告警后,将告警通知给运维人员进行处理;在可视化层中,通过web可视化提供被监控设备的性能数据展示,通过不同维度的报表全方位的展示整个IT系统的状态。然后对IT运维监控系统的关键子模块给出了详细设计,介绍了IT运维监控系统中使用到的关键技术,阐述了关键子模块的实现过程。尤其是针对现代超大规模IT系统的监控中遇到的采集能力不足、海量数据存储的问题,通过分布式、数据库集群、大数据的技术给出了解决方案。最后对IT运维监控系统进行了编码实现,根据设计目标,对IT运维监控系统进行了功能、性能测试。测试结果表明该系统完成了设计目标,满足IT系统的日常运维监控需求。该IT运维监控系统已经在实际生产环境中得到了应用。通过IT运维监控系统的实施,可以自动化、智能化的对IT系统进行监控,实时掌握整个IT系统的状态。帮助运维人员及时、准确的发现IT系统故障,暴露IT系统的整体运行瓶颈,为IT系统的高可用提供了有力的支撑。