论文部分内容阅读
由于云计算越来越成熟,基于容器的轻量级Paas平台由于其大规模快速部署的优势而被各大运营商所青睐。伴随着云平台规模日益复杂且“云震”事件频繁发生云平台的安全性和可靠性受到威胁,本文通过异常检测系统发现相应异常问题为管理员解决异常提供依据,进而提高云平台安全性和可靠性。如何减少数据冗余维度、提高标记准确率、减少无标记数据的浪费、提高异常检测算法准确率和提高管理员定位异常速度是云平台异常检测亟需解决的问题。本文设计并实现一种云平台异常检测模型,该模型可将异常定位到资源级别,依据容器的各类资源数据,通过异常检测模型进行检测,然后从物理机、任务和资源等三个方面统计分析,为云平台管理员快速定位异常提供依据。首先,通过对云平台容器检测发现异常现象包括:容器长时间无数据交互,在规定时间内无法完成相应任务、容器僵死无定期反馈数据等,进而总结出相应异常发现规则。其次,针对大量容器数据维度冗余和数据标记准确率低的问题,提出数据预处理和数据标记的方法。数据预处理是通过对容器数据采用信息增益方法进行提取重要数据维度。数据标记将容器异常标记定位到资源级别。再次,针对异常检测模型准确率低和未标记数据浪费问题,提出基于半监督随机森林异常检测模型,训练数据包括大部分已标记数据和少部分未标记数据,迭代执行随机森林和数据剪辑。本文在数据剪辑中提出基于属性加权的K均值聚类和K近邻集成学习模型来提高数据剪辑的准确率。通过构建异常检测模型,进而设计并实现异常判定及根因分析模块,然后通过对数据进行统计分析,设计并实现任务和资源的统计分析模块,为管理员解决异常问题提供依据。最后,采用异常检测模型实现系统异常检测功能;设计并实现异常判定及根因分析、任务和资源统计分析等模块;基于数据预处理和数据标记合理设计数据库表。运行黑盒和白盒测试方法对系统异常判定及根因分析、任务和资源统计分析等关键功能以及系统的性能进行测试,测试验证系统可用性。综上所述,本文设计并实现面向Mesos云平台异常检测系统,提出的异常检测模型准确率达86.2%,较基于PCA和基于信息熵等其他异常检测系统均高出4%-5%,且提高管理员异常定位速度,达到系统设计目标。