论文部分内容阅读
近年来,云计算逐渐成为一种可行且有效的服务和计算模型,利用相关技术使资源利用率得到了极大的提升,且越来越多的部署在高校实验室和企业中。随着云计算的规模日益扩大以及云数据中心的资源分布高度集中,如何保障云服务的稳定性、可靠性、安全性也不容忽视。由于涉及大量资源以及需要满足不同用户的SLA(服务水平协议),云本质上是复杂的。因此,为保证任务分配资源必须灵活且动态,对云平台的资源能够做到实时监控是非常必要的。本文通过对云平台体系架构的学习和监控技术的研究,总结得出当前监控系统存在不同方面的缺点,如:没有负载预测功能和告警机制,系统的稳定性较差,当虚拟机达到一定数量时,性能急剧下降等。根据现有云计算平台的实际监控需求,对云监控系统中的相关技术进行研究,设计了云监控系统,实现了对云平台的虚拟节点资源和服务状态的实时监控、预测与告警,为云平台提供高效、稳定、安全的服务建立基础。论文的主要工作如下:1、通过对当前云计算平台监控系统现状进行研究分析,给出论文的组织架构,阐述了云监控系统的研究背景和意义,并对其关键技术进行介绍,分析了云监控的动因和对比了当前常用监控系统。2、在云监控负载预测的研究中,在传统神经网络预测方法基础上,提出了基于神经网络及FLS的负载预测方法,该方法通过对输入输出变量以及预测规则的制定,从四个方面出发充分考虑到虚拟机负载的真实情况,根据监控历史及当前虚拟机的CPU利用率和工作量实现预测。3、在云监控告警机制的研究中,针对传统告警机制的不足,提出了 1:N:N的监控告警机制,改进了告警流程,使其可以应用于多场景监控,实现了自动告警功能,并在数据处理时采用时间滑动窗口机制,从而保证更好的监控服务。4、对云监控系统进行架构分析,将监控系统分为三个技术模块。在数据采集模块中,研究出Pull&Push数据采集方式,使其能够根据不同条件实现在Push模式和Pull模式之间智能切换并将采集到的数据进行统一接口封装,转入数据存储模块。在数据存储模块中,采用数据双写策略,避免数据丢失。在监控告警模块中,采用改进后的监控告警模型和负载预测机制,并实现有故障时能够告警通知到相关人员的功能。5、云监控系统采用MVC设计模式,对云监控的相关功能模块进行设计,并进行数据库的相关设计。最后对平台进行功能测试和性能测试,并进行分析。