基于机器学习的高性能计算机故障日志分析与预测研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:chouchouzhuzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在通往exascale系统的道路上,可靠性(仅次于并行管理和能源效率)被视为三大挑战之一。虽然一些预言性的高度频繁的故障预言并没有成为现实,但对于当前和未来的系统设计来说,这种预言今天仍然有可能应验。未来保证高性能计算机的可靠性,有很多容错技术被提出和应用。最典型的就是通过定期将程序的状态保存到检查点文件,且在故障发生时进行系统恢复的检查点回滚恢复方法来保证系统的可靠性。然而,任何用于容错的技术都面临着被动反应的挑战,因为故障可能在任何时候发生。因此,大量的研究集中在预测故障上,即预测故障的能力,这样就可以在故障出现之前采取规避措施。准确的故障分析与预测带来的好处是非常重要的:它能够使系统仍然在工作的情况下进行响应,从而简化缓解机制;它消除了频繁保存和随后恢复数据的昂贵机制;结合热交换硬件,它可以简化系统管理和增加应用,能够更容易地推理全局应用状态。因此,为保证高性能计算机系统的可靠性,本文也将采用主动容错机制,结合高性能计算机系统的体系结构与故障特征,利用机器学习的方法,进行故障预测相关的研究工作。故障的预测可以基于历史故障来实现。本文使用的历史故障数据是自主高性能计算机系统投产后工作故障日志信息203510247条,时间跨度为2016年1月28日至2016年12月6日。由于系统存在差异性,因此,每个计算机系统的故障特征也是有差异的,而国内目前很少有对自主系统故障特征进行研究的工作。故而,本文首先利用高性能故障日志数据,对日志来源的系统进行故障特征分析,得到该系统故障的时空分布特性等,并与国外系统进行故障分布特征进行对比。为了更好的进行故障分析与预测,本文对故障日志数据进行了预处理,得到故障时间序列。由于导致系统故障发生原因较多,故障与故障之间也许存在相关性,同样,故障本身与时间相关,故障类型较多。因此,本文利用了机器学习的方法对故障进行聚类分析,并应用于后续的研究工作。结果表明故障可大致分为三类,并且,每一类都有着各自的特征。接下来,本文结合机器学习与故障分析结论,首先使用单向长短期记忆神经网络(LSTM),提出了基于单向LSTM的故障预测模型,通过实验设计,实现了对故障发生提前时间的预测和故障发生结点位置的预测。实验结果表明,基于单向的LSTM的故障预测模型的准确率可达80.56%,较之前传统的故障分析模型,提高了故障分析准确度。鉴于目前机器学习技术的预测能力强大,本文在考虑单向LSTM后,仍提出了基于多类机器学习组合的故障预测模型。在这个模型里,使用了双向LSTM和卷积神经网络(CNN)层,注意力机制可以使故障预测更聚焦于影响更大的因素,因此,该预测模型中也加入了注意力机制(attention),为防止过度拟合,引入了辍学技术(dropout)。通过实验设计,实现了对故障发生提前时间的预测和故障发生结点位置的预测。与基于单向LSTM的故障预测模型相比,基于多类机器学习组合的故障预测模型在有的故障类别里,可以实现更好的故障提前时间的预测,但是,对故障发生结点位置的预测却远不及单向LSTM。总之,通过基于单向LSTM的故障预测模型与基于多类机器学习组合的故障预测模型对故障的预测结果对比,结合故障的类别、故障发生的原因以及故障的时空关系,可以知道:故障分析和故障预测是相关连的,基于机器学习的故障预测模型可以达到很好的故障时空预测结果,能够有效的提高系统的可靠性;并且,时空预测的准确性与故障类型相关;另外,某一确定的模型可能不能同时实现对故障时空的预测的最佳效果,因此,本文对以后考虑联合故障时空预测分析也具有指导意义,这将需要研究更充分有效模型做到关联分析并使时空故障预测同时达到最优。
其他文献
联合力量投送能力是一个国家的部队战斗力和战争能力的重要体现。我国的联合力量投送方面的研究尚处于起步阶段,对于多种运输方式下道路资源有限的情况下,如何将任务要求各异的部队快速投送到指定的区域缺乏相关的研究和计算方法。联合力量投送任务规划问题投送位点多、道路资源有限、投送要求细致、约束条件复杂,使得大规模部队的投送任务规划问题尤为艰难。因此,关于联合力量投送任务规划方面的研究有着重要的实际意义和研究意
学位
跨期决策指的是个体对不同时刻发生的结果进行收益与成本的衡量并做出选择。当前,相对贫困的治理成为减贫工作的重点,对相对贫困个体跨期决策的探究可以丰富该领域相关实证研究,有助于进一步解释贫困延续的心理原因,为更快更好开展相对贫困治理提供理论支持。因此,本研究引入自我损耗和情绪变量,通过三个行为学实验进行自我损耗和情绪对相对贫困个体跨期决策的影响研究。实验一通过跨期选择任务考察农村相对贫困个体与非贫困个
学位
随着工业自动化技术的发展与高质量生产需求的提升,多轴伺服系统对通信网络的实时性、快速性、同步性等性能要求也不断提高。由于目前主流的实时工业以太网以Ether CAT性能为最佳,本文基于Ether CAT实时工业以太网技术搭建了多轴伺服控制系统实验平台,利用Ether CAT的分布时钟机制提出了一个同步控制方案并进行了实验测试与验证。本文主要完成了以下工作:首先对多轴同步控制技术以及实时工业以太网的
学位
边缘计算倾向于在更靠近终端用户的网络边缘配置存储和计算资源。在边缘计算环境中,许多云提供商试图将云服务下行到边缘节点,以便为数据密集型和延迟敏感型应用程序提供高质量的服务。然而,托管云服务会消耗边缘节点自身的资源,对边缘节点造成资源成本开销。很少有边缘节点会在没有任何回报的情况下自愿为云服务提供资源。因此,如何激励更多边缘节点参与边缘计算环境有待研究。本文首先研究在云-边环境中单个云服务下行任务的
学位
传统商用交换机中采用SRAM和TCAM等交换机硬件查表资源以精确匹配或通配匹配的方式实现高速流表查找。但随着网络规模的持续扩大和精细流量控制需求不断增加,交换机上的硬件查表资源容量难以支撑大量增长的流表规则。基于软件定义网络(SDN),软件可通过配置控制器在底层交换机中实时部署细粒度的缓存规则来控制流量转发,从而提高有限硬件资源情况下交换机的查表性能。现有的规则缓存机制通常基于单级规则缓存表进行设
学位
<正>川大皮革系90周年校庆的喜讯得到了广大皮革校友的热情支持与响应,特别是73441班的老校友闻讯欢欣鼓舞。在成都工作的几位同学精心策划,组织了为期三天的校庆活动,并千方百计将消息通知到了全班有通讯联系的每位同学,要求相互转告。最终,全
期刊
云存储作为一种新范式为用户提供了弹性而可靠的数据存储方案,使得用户可以任何时刻通过网络访问云服务器来存取数据,降低了用户本地数据维护成本,越来越多的用户也倾向将数据存放在云端,但存放在云端的数据由于脱离用户控制面临着数据块被损坏、隐私泄露、被未授权用户访问或窃取等问题,因此云环境下如何确保上传到云端数据的完整性、机密性、访问用户身份真实性、是否具有访问权限等问题受到了越来越多的关注和研究。为验证云
学位
随着信息技术的发展,异构分布式计算系统逐渐成为科学计算、工程应用等科学领域的强大技术支撑。工作流作为异构分布式计算系统中一种常见的执行对象,其调度策略的优劣直接影响工作流执行效率和系统资源利用率。本文针对异构分布式计算系统下工作流调度执行时间和可靠性优化问题,进行了以下两个方面的研究:(1)针对异构计算系统下单工作流执行时间最小化和可靠性最大化问题,提出了一种任务合并和任务复制的算法MDMR(Me
学位
机会网络是一种不需要在源节点和目的节点之间存在完整路径,利用节点移动带来的相遇机会实现网络通信的、时延和分裂可容忍的无线自组织网络。这种新型网络可以容忍较长的时延以及频繁的网络连接中断,对于野生动物监测、移动社交网络、车载网络以及偏远地区互联网设备等场景有较强的适应性。近年来网络技术的研究学者对机会网络中的路由算法、安全性问题、应用领域以及节点的协同和移动等问题展开了广泛而深入的研究,极大地推动了
学位
网络流量异常检测旨在发现偏离正常模式的网络数据。网络自身设计的脆弱性以及网络背后潜在的经济利益使其面临着越来越多的网络安全威胁,人们对网络流量异常检测技术的应用需求愈发迫切。网络流量异常检测分为两种:基于流量统计特征的异常检测和基于有效载荷特征的异常检测。流量统计特征异常检测的特征获取相对容易,但其数据本身的局限性导致这种方法难以发现隐藏在网络流量数据报文中的威胁行为,有效载荷异常检测恰好能够弥补
学位