论文部分内容阅读
存储设备性能预测在存储系统的自动化管理以及任务计划程序中具有广泛的应用,占有重要的地位。传统的方法是利用分析模型、仿真模型来预测存储设备性能,并称这类方法为白盒方法。因为这类方法主要依据目标存储设备的内部架构、调度算法等大量领域知识进行模拟和分析并构建相应预测模型。然后随着存储设备日益高端、复杂,特别是设备生产商不愿意公开其设备内部参数,模拟和分析模型很难实现,这使得白盒方法很难成为存储设备性能预测的一种通用的解决方案。与白盒方法相对应的一种设备性能建模方法称为黑盒方法。黑盒方法的优点是不需要了解目标设备的任何内部信息,它将所有设备都看成一个黑盒,仅仅使用统计或机器学习方法依据该设备上历史数据来探索设备的行为习性并建立预测模型。
CART是一种可以完成回归任务的机器学习方法,使用该方法来构建存储设备的预测模型具有很多优点,如简单、预测速度快、对不相关属性鲁棒且具有可解释性,但CART模型对噪音数据敏感且稳定性差,还有其预测精度不够高,低于K-最近邻方法。为了获得更好的预测性能,本文提出一种基于回归树与K-最近邻交互模型的存储设备性能预测方法,该方法主要利用回归树与K-最近邻间具备的潜在的优劣互补性。在该交互模型中,首先利用训练数据集构建一棵标准的回归树,然后统计每个内部分裂节点并依据一定规则计算出每个属性在树的生成过程中所做贡献,亦称为属性权重,这有助于直观理解;其次,利用前面计算出的属性权重,在叶节点使用加权的K-最近邻交互模型取代原来回归树的预测方法,即使用叶节点上所有实例的输出属性值的均值来预测未知实例;最后,提出了一种预测的平滑算法,该算法利用从叶节点到根节点路径上节点的信息迭代式修正预测值,目标是获得更好的泛化性能和预测准确度。实验表明,本文提出的交互模型较单一的回归树模型或K-最近邻模型有更好的稳定性和预测性能,且具备可解释性。
构建设备性能模型的一个重要方面就是如何全面、准确地对工作负载进行恰当的描述,即工作负载特征化。Wang提出的基于I/O请求的工作负载特征化过程中,为了描述I/O到达的突发率,需要确定一个窗口。Wang通过实验并分析每个特征的相对重要性,然后以此为基础来确定该参数的大小。该方法需要多次重复实验,然后认真选择大小。即便如此,这种方法也很难获得理论上的解释。本文提出一种统计方法,通过统计数据集中同类任务的最大突发率,也就是说对任一进入系统的I/O请求,在其前面等待被执行的I/O的最大值。采用这种方法的理由是,已经执行完的I/O不会再对刚进入系统的I/O构成影响,仅仅是排队等待的I/O请求才会影响该I/O请求。此外,本文发现Wang遗失了一个非常重要的特征——缓存效应,因为当一个I/O请求所需数据部分或全部存在于缓存中,则减少与慢速磁盘交互的过程,可明显缩短操作响应时间。实验表明,缓存效应是一个重要的特征,能够显著提高模型的预测准确度。