论文部分内容阅读
随着数据中心存储规模的快速增长,以硬盘为主要载体的存储系统可靠性成为影响计算机系统可靠性的关键因素。然而传统的容错机制,如硬盘镜像、纠删码等,还存在着存储成本较高、故障恢复期间用户体验度降低、故障恢复代价较高等缺点,难以满足数据中心不同需求。近年来,研究者采用一些机器学习方法基于硬盘的SMART属性来对硬盘建立故障预测模型,对硬盘可能发生的故障进行提前预测,并取得了比较好的预测效果。但之前的研究大部分使用单分类器模型,由于硬盘的故障属于一类小概率事件,硬盘数据分布不平衡,使得这些模型不能很好应用在现实世界的数据中心。 本文以预测硬盘故障、提高存储系统可靠性为研究内容,根据硬盘SMART数据的特点,分布不平衡,提出了一种基于随机森林算法的硬盘故障预测模型,旨在保证在故障误报率低的情况下,提高故障的检测率。目前所进行的研究主要包括:1、根据硬盘SMART数据的分布,定性分析了SMART特征值与硬盘故障的相关性,选取出更适合于随机森林模型的特征值。2、对硬盘进行故障预测属于一种不平衡分类问题,提出了随机森林算法建立故障预测模型,与神经网络模型进行了对比,在硬盘故障检测率和误报率上随机森林模型取得了更好的实用性。3、针对随机森林建立的硬盘故障预测模型进行了分析,在理解森林中单棵决策树与森林整体预测效果的关系后,根据森林中决策树准确率对随机森林进行了修剪,提高了硬盘故障预测的效果。4、在对硬盘进行故障预测时,随着测试硬盘距训练模型时间间隔的变大,模型出现“老化”的现象,针对这一问题,对模型进行了更新,以保持对故障预测的效果。