【摘 要】
:
随着大数据和云计算技术的发展,越来越多的数据和服务都部署在数据中心中,这就使得数据中心存储系统的容量变大和异构性突出,导致存储系统的软硬件故障发生的概率变高,进而导致存储系统可靠性和可用性严重降低,增加运行维护成本。硬盘故障预测作为一种主动容错的技术,以其故障前瞻性提高存储系统的可靠性和可用性,越来越受到工业界和学术界的关注。但是,磁盘故障预测还是面临着许多问题,例如数据集的不平衡性、检出率和误报
论文部分内容阅读
随着大数据和云计算技术的发展,越来越多的数据和服务都部署在数据中心中,这就使得数据中心存储系统的容量变大和异构性突出,导致存储系统的软硬件故障发生的概率变高,进而导致存储系统可靠性和可用性严重降低,增加运行维护成本。硬盘故障预测作为一种主动容错的技术,以其故障前瞻性提高存储系统的可靠性和可用性,越来越受到工业界和学术界的关注。但是,磁盘故障预测还是面临着许多问题,例如数据集的不平衡性、检出率和误报率之间如何进行权衡和故障数据高维度等问题。这些问题限制了预测效果,不能进一步缩小实际预测结果和预测理论值之间的差距。
论文针对磁盘故障预测的S.M.A.R.T.数据大容量、异构、不平衡和高维度的问题,设计了一种基于代价敏感学习的硬盘故障预测方法CSLM(Cost-Sensitive Learning Method)。该方法对高维度问题设计了一种结合效应量统计指标和遗传算法的特征选择算法,过滤显著无关特征后,可以显著提升建模准确率。针对正负样本不平衡问题,通过基于样本加权的代价敏感学习的方法来平衡数据分布,并且在检出率和误报率之间进行折衷取舍,在保证检出率的前提下降低误分类代价,对异构数据源建立代价敏感模型,可以得到比单一数据源低的误分类代价;为样本加权的代价敏感算法寻找效果更好的分类器,论文对一些常用的机器学习算法进行了比较,发现基于决策树的集成算法在硬盘故障预测中效果最好。
论文使用开源的数据集对提出的方法进行测试。测试结果表明,特征选择算法与常用的高效的秩和检验算法相比,AUC值(ROC曲线下面积)的提升幅度为2%~42%;基于样本加权的代价敏感学习方法与排名模型(Rank Model)相比可以获得更低的误分类代价,误分类代价降低幅度为52%~96%;使用异构数据建模的误分类代价比单独建模低16%~70%,误报率低16%~70%,单一数据建模的故障检出率要比使用异构数据建模高3%~29%。
其他文献
真空蝶阀具有洁净无油、体积小、不受介质流向影响等优点,被广泛应用于半导体制造、生物制药等需求清洁真空的行业。在实际工况下,真空蝶阀可能会面临复杂苛刻的抽气环境,如含粉尘颗粒气体、吸入压力或温度的变化等。因此研究真空蝶阀内流体的流动特性和蝶阀的热场分布与热变形具有重要意义。 本文主要利用计算流体力学(CFD)方法、数值传热学方法及有限元分析方法(FEM)对真空蝶阀展开研究。根据蝶阀结构,建立其内部
钛酸锌(ZnTiO3)材料具有优异的微波介电性能,已经在移动通讯设备中的片式介质谐振器,气体传感器,颜料和薄膜太阳能电池等器件方面得到了应用。同时,钛酸锌又是宽禁带半导体材料,对其进行磁性元素的掺杂可能使其成为新的稀磁半导体材料。现有对钛酸锌的研究大多聚焦于其纳米,粉体和块体材料,且纯相钛酸锌难以获得,所以其在光学和电磁方面的报道比较匮乏。另外,改变材料的化学计量比或者进行元素掺杂将会改变材料的物
视频监控平台互联作为安防领域的重要研究课题,对平安城市的有效推进有着重大的应用价值。随着公民安全保护意识的逐渐提高,人们对公共财产安全的防护需求也越来越高,作为安防领域的关键技术之一,视频监控的覆盏范围也就成为了维护公共财产安全的重要因素,如果能将视频监控系统统一连接起来,则会更加快速直观的提升安全防护的范围。而现有的视频监控系统在实现方式方面并不统一。基于实时流传输协议(Real TimeStr
六足机器人在危险或灾难环境中运动时,腿部容易发生故障并且无法及时进行人工修复。如果故障机器人可以根据当前情况找到能够让其继续运动的步态,则认为机器人在当前故障情况下可以进行容错运动,这样会提高六足机器人在未知环境中的适用性。本文对六足机器人在运动过程中,支撑腿发生单腿失效时的稳定性进行分析,并根据当前情况利用余下正常腿生成新的步态。具体内容有以下四个部分: 1、当六足机器人处于三角步态运动时,对
数据备份是当今企业实行数据保护和存储管理的主要途径,然而数据备份系统中存在大量的冗余数据。重复数据删除技术现已广泛应用于数据备份系统来识别和消除冗余数据,从而加速系统中的备份流程并减少存储开销。为了保证数据流的空间局部性,重复数据删除将多个数据块组织到固定大小的容器中,作为系统中的存储单元。备份流中的小文件生成的小数据块产生大量元数据导致容器的数据区域无法被填满,这会降低存储空间效率并加剧恢复性能
深度神经网络的发展使得人脸识别技术取得显著进展,但是深度学习模型容易受到对抗样本的攻击。对抗样本是指故意添加细微的扰动所形成的输入样本,它会使模型判断错误。人脸识别模型同样易受对抗样本攻击,研究人脸识别模型在对抗攻击下的脆弱性有助于人们更好的了解对抗样本,从而获得鲁棒性高的模型。本文在黑盒场景下,研究人脸识别对抗攻击算法。 针对黑盒攻击成功率低的问题,提出了基于Dropout的梯度符号法。该算法
微博是中国互联网最活跃的社交平台之一。对微博评论进行情感分类,对舆论控制、商业决策和反恐领域都具有重大意义。目前针对微博评论情感分类研究具有较多难点,存在文本口语化严重、同音错别字高频出现及新型网络语言层出不穷等问题,而因传统词向量缺乏对情感信息表征而导致的模型难以准确学习到文本情感信息的问题也亟待需要解决。 针对目前情感词典主要基于规范语言而忽略了网络语言等不规范语言的现象,统计整理出了常见网
NAND闪存是一种被广泛应用于存储领域的非易失性存储介质。随着闪存单位尺寸的减小和每单元存储的数据位增多,闪存存储密度越来越高,这不可避免地带来了闪存可靠性和寿命的降低。为了保证闪存可靠性,提出采用前期主动预防和后期高效修正相结合的方法,从数据写入闪存前的错误预防和数据读出时的错误纠正两个方面入手研究降低闪存误码率。 编程干扰和保留错误被公认为是NAND闪存中最主要的两种错误类型,且与闪存状态密
为了应对日益增长的图处理需求,大量基于整体同步并行计算(Bulk Synchronous Parallel, BSP)模型的图处理系统被提出。近年来,分布式外存模式图处理系统因兼具分布式内存模式与单机外存模式图处理系统的优点而受到了越来越多的关注。然而现有的分布式外存模式图处理系统更注重于提升处理规模,在处理性能方面虽然较单机外存模式有所提升,但依然远不如分布式内存模式图处理系统。 结合BSP计
作为知识图谱补全的重要技术手段,知识推理已经成为当下研究的热点。其中基于路径的知识表示学习模型由于同时考虑了关系路径和实体的语义信息,大大提高了知识推理的准确度。虽然该模型以知识表示学习为基础,通过引入复杂关系路径建模提高了知识推理准确度,但同时也增加了时间开销,难以适应规模日益庞大的知识图谱。 针对复杂关系路径建模存在的效率问题,提出了一种利用子关系路径特征进行建模的方法(Sub-relati