基于随机森林的硬盘故障预测算法的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:clgg1976
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据中心存储规模的快速增长,以硬盘为主要载体的存储系统可靠性成为影响计算机系统可靠性的关键因素。然而传统的容错机制,如硬盘镜像、纠删码等,还存在着存储成本较高、故障恢复期间用户体验度降低、故障恢复代价较高等缺点,难以满足数据中心不同需求。近年来,研究者采用一些机器学习方法基于硬盘的SMART属性来对硬盘建立故障预测模型,对硬盘可能发生的故障进行提前预测,并取得了比较好的预测效果。但之前的研究大部分使用单分类器模型,由于硬盘的故障属于一类小概率事件,硬盘数据分布不平衡,使得这些模型不能很好应用在现实世界的数据中心。  本文以预测硬盘故障、提高存储系统可靠性为研究内容,根据硬盘SMART数据的特点,分布不平衡,提出了一种基于随机森林算法的硬盘故障预测模型,旨在保证在故障误报率低的情况下,提高故障的检测率。目前所进行的研究主要包括:1、根据硬盘SMART数据的分布,定性分析了SMART特征值与硬盘故障的相关性,选取出更适合于随机森林模型的特征值。2、对硬盘进行故障预测属于一种不平衡分类问题,提出了随机森林算法建立故障预测模型,与神经网络模型进行了对比,在硬盘故障检测率和误报率上随机森林模型取得了更好的实用性。3、针对随机森林建立的硬盘故障预测模型进行了分析,在理解森林中单棵决策树与森林整体预测效果的关系后,根据森林中决策树准确率对随机森林进行了修剪,提高了硬盘故障预测的效果。4、在对硬盘进行故障预测时,随着测试硬盘距训练模型时间间隔的变大,模型出现“老化”的现象,针对这一问题,对模型进行了更新,以保持对故障预测的效果。
其他文献
机器视觉研究试图实现从2D图像到3D场景的推断。一个完整的机器视觉系统往往要涉及一系列复杂的过程,从图像获取、预处理、特征提取/选择,到更高级的推断决策。这些过程之间高
近年来,越来越多的高校网站如雨后春笋般地建设起来。然而,在信息网站给人们生活带来便捷的同时,与之相关的诸多安全与管理方面的问题往往都被这些网站的建设者们忽略了。随着高
随着internez的快速发展,电子商务作为一种新的商务模式吸引了越来越多的注意力,对电子商务而言,电子支付系统是至关重要的。电子现金又是一种非常重要的电子支付系统。论文重点
P2P是英文peer-to-peer的缩写,即对等网络或对等计算。它是一种网络模型,在这种网络中每个节点的地位都是相同的,无服务器与客户机之分。随着Napster等P2P系统的出现,人们开始关
随着互联网及存储技术的快速发展,出现了大量的结构复杂的数据,如生物学数据、Web数据和XML数据等,这些数据大都可以用树或图的结构来表示。如何从这样的数据中提取出有用的
随着计算机多媒体技术的发展和多媒体信息处理需求的不断增长,基于内容的视频检索技术CBVR(Content-based Video Retrieval)越来越受到人们的广泛关注,相关的视频处理研究成为
在无线Ad Hoc网络中,为了实现服务的移动性,节点大多采用电池供能。而电池的容量有限,因此所能提供的能量也十分有限,并不能完全满足用户的期望。为了解决这个问题,一般采用两种方
随着社会信息化进程的加快,网络应用指数级的增长,原有的分布式计算模式越来越不适应目前的网络环境。为了解决这种情况,一种新的技术应用而生,这就是移动agent技术。移动agent技
随着数字多媒体的越来越普及,扫描作为获取数字化信息的一个重要渠道,其应用也变得越来越广泛。然而由于报纸、杂志、书籍等印刷品均是采用非连续色阶的半色调(halftoning)印刷
随着计算机网络规模和应用领域的日益增大,网络已经成为人们日常工作和生活的重要工具。但是由于网络复杂性和异构性的不断增加,通过网络传播的病毒数量和各种人为破坏因素越来