论文部分内容阅读
随着物联网、云计算、云存储等新兴领域的飞速发展,人类社会所产生的数据总量呈现爆发式增长,这些数据大部分都存储在数据中心的硬盘中。但是由于硬盘自身的物理特性,一旦损坏,存储于硬盘中的数据将可能永久丢失。虽然数据中心能够采用冗余备份策略缓解硬盘数据丢失的问题,但其缺少对硬盘健康状态更为有效的故障风险评估手段。如果能够对硬盘故障进行准确预测,对于保障数据安全、降低数据中心运营成本具有极大价值。因此,硬盘故障预测研究目前已成为数据中心领域的研究热点之一。在硬盘故障预测相关研究中,最常用的方法是使用机器学习相关算法建立故障预测模型。但是很多学者在建立模型时,所采用硬盘健康度评估策略是较为简单的线性评估策略,这种策略对负荷不稳定硬盘的健康状态不能进行有效评估。除此之外,大多数研究者在进行硬盘故障预测研究时并没有关注硬盘SMART数据的时序性。因此,硬盘故障预测模型的预测性能存在很大提升空间。针对以上存在的问题,本文主要的工作与贡献如下:(1)本文创新性地提出了一种基于玻尔兹曼概率分布的硬盘健康度评估策略。相比于线性评估法,该策略能够充分利用因负荷不稳定而引起的硬盘SMART数据中的波动。除此之外,其考虑到因故障原因不同而造成的故障硬盘SMART数据分布不集中的现象,因此能够更准确地评估硬盘的健康状态。(2)为了充分利用硬盘SMART数据的时序性,本文提出了两种不同的基于长短期记忆神经网络(Long Short-Term Memory,LSTM)的硬盘故障预测模型LSTM_SMART及LSTM_HEALTH。两种模型均包含三个模块:LSTM预测模块、健康度评估模块、故障判定模块。二者不同的是,LSTM_SMART模型首先利用硬盘的历史SMART数据预测未来的SMART数据,之后通过健康度评估模块来对预测结果进行评估,最后通过故障判定模块进行故障判定。而LSTM_HEALTH模型首先通过健康度评估模块将硬盘历史SMART数据转化成健康度,然后利用LSTM预测模块直接预测硬盘未来的健康度,最后根据预测结果进行故障判定。相比较而言,LSTM_HEALTH模型训练速度快,而LSTM_SMART模型预测准确率更高。为了验证本文提出的硬盘健康度评估策略及故障预测模型的有效性,本文使用两个来自真实数据中心环境下的开源数据集分别进行了对比实验。实验结果表明,本文所提出的评估策略能够更加准确的评估硬盘的健康状态。除此之外,实验结果证明了本文所提出的硬盘故障预测模型能够在保证预测准确率的情况下,极大地提前硬盘故障预测时间。