论文部分内容阅读
高性能计算系统契合了大数据和云计算在运算能力、高性能存储等方面的需求,因此高性能计算是大数据、云计算发展的技术支持。随着大数据、云计算技术的广泛应用,高性能计算系统的应用领域越来越广,系统的规模越来越大,系统复杂度越来越高,导致系统运行过程中发生故障的几率呈指数增长,因此如何建立有效的自动故障检测机制成为高性能计算系统研究的一个热点和突出问题。高性能计算系统中相对于海量的正常数据而言,故障还是很罕见的,所以故障检测可以看做为一个模式识别的二分类问题。无监督学习的模式识别方法仅仅依赖于对现有样本数据本身的分析,因此适用于规模不断扩大的高性能计算系统。因此本文提出用模式识别的方法解决高性能计算系统的故障检测问题,拓展了模式识别方法的应用领域,并且基于无监督的故障检测方法具有可扩展性和实时性。本文围绕如何针对大规模的高性能计算机群系统建立有效的在线智能故障检测系统展开了如下研究:首先,针对本文的研究对象:操作系统的底层数据,提出利用Linux的系统指令获取描述各种活动行为(如:内存、CPU、I/O和网络)的特征信息作为研究的原始数据,并构建出适用于模式识别方法的特征矩阵。然后,提出基于PCA进行特征提取和基于距离的孤立点检测进行异常判断的自动的故障检测机制,并通过实验验证该故障检测机制的有效性。实验过程中对单一错误和多种错误的情形分别进行了分析研究,结果发现PCA算法对于单一错误情形的故障检测的准确率较高,误判率较低;而对于多种错误并存的情形,该方法效果不佳。为了弥补PCA算法对非高斯特性的数据的不可分离性,提出基于ICA的特征提取方法,该方法理论上对分离数据集的相关性可行性很高,并通过实验验证了 ICA方法的有效性,发现ICA方法不仅具有很高的检测准确率,而且误检率很低。并通过实验对比PCA和ICA两种方法,发现基于ICA的故障检测机制的检测效果比PCA的检测效果好。并且发现在多种错误并存的情形下,PCA算法的准确率很低,误检率和漏检率都很高。最后,结合PCA和ICA的优劣性,提出先PCA进行线性分离,再利用ICA进一步进行独立元分离的PCA-ICA方法。实验结果表明,该方法比ICA具有更好的故障检测效果。结论部分对主要内容和创新点进行总结和阐述,并对论文的不足之处和未来的研究工作进行展望。