基于回归树与K-最近邻交互模型的存储设备性能预测

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:shimin_job
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
存储设备性能预测在存储系统的自动化管理以及任务计划程序中具有广泛的应用,占有重要的地位。传统的方法是利用分析模型、仿真模型来预测存储设备性能,并称这类方法为白盒方法。因为这类方法主要依据目标存储设备的内部架构、调度算法等大量领域知识进行模拟和分析并构建相应预测模型。然后随着存储设备日益高端、复杂,特别是设备生产商不愿意公开其设备内部参数,模拟和分析模型很难实现,这使得白盒方法很难成为存储设备性能预测的一种通用的解决方案。与白盒方法相对应的一种设备性能建模方法称为黑盒方法。黑盒方法的优点是不需要了解目标设备的任何内部信息,它将所有设备都看成一个黑盒,仅仅使用统计或机器学习方法依据该设备上历史数据来探索设备的行为习性并建立预测模型。   CART是一种可以完成回归任务的机器学习方法,使用该方法来构建存储设备的预测模型具有很多优点,如简单、预测速度快、对不相关属性鲁棒且具有可解释性,但CART模型对噪音数据敏感且稳定性差,还有其预测精度不够高,低于K-最近邻方法。为了获得更好的预测性能,本文提出一种基于回归树与K-最近邻交互模型的存储设备性能预测方法,该方法主要利用回归树与K-最近邻间具备的潜在的优劣互补性。在该交互模型中,首先利用训练数据集构建一棵标准的回归树,然后统计每个内部分裂节点并依据一定规则计算出每个属性在树的生成过程中所做贡献,亦称为属性权重,这有助于直观理解;其次,利用前面计算出的属性权重,在叶节点使用加权的K-最近邻交互模型取代原来回归树的预测方法,即使用叶节点上所有实例的输出属性值的均值来预测未知实例;最后,提出了一种预测的平滑算法,该算法利用从叶节点到根节点路径上节点的信息迭代式修正预测值,目标是获得更好的泛化性能和预测准确度。实验表明,本文提出的交互模型较单一的回归树模型或K-最近邻模型有更好的稳定性和预测性能,且具备可解释性。   构建设备性能模型的一个重要方面就是如何全面、准确地对工作负载进行恰当的描述,即工作负载特征化。Wang提出的基于I/O请求的工作负载特征化过程中,为了描述I/O到达的突发率,需要确定一个窗口。Wang通过实验并分析每个特征的相对重要性,然后以此为基础来确定该参数的大小。该方法需要多次重复实验,然后认真选择大小。即便如此,这种方法也很难获得理论上的解释。本文提出一种统计方法,通过统计数据集中同类任务的最大突发率,也就是说对任一进入系统的I/O请求,在其前面等待被执行的I/O的最大值。采用这种方法的理由是,已经执行完的I/O不会再对刚进入系统的I/O构成影响,仅仅是排队等待的I/O请求才会影响该I/O请求。此外,本文发现Wang遗失了一个非常重要的特征——缓存效应,因为当一个I/O请求所需数据部分或全部存在于缓存中,则减少与慢速磁盘交互的过程,可明显缩短操作响应时间。实验表明,缓存效应是一个重要的特征,能够显著提高模型的预测准确度。
其他文献
随着信息时代的持续发展,大量的文件以电子介质方式使用或存储,从个人隐私到政企机密文件,任何一条敏感信息不经意的传播和复制,都可能给当事者带来灾难性的危害.电子资料的
新一代宽带无线城域网接入技术WiMAX,以其高传输带宽、多类型业务支持能力以及灵活高效的组网方式,使其发展前景更为广阔。虽然WiMAX定义了四种不同的业务类型及相应的QoS标准
随着传感器技术的发展,传感器网络正广泛应用到各个领域,传感器Web理论也逐渐完善和成熟。但是传感器网络的异构性,使传感器网络之间很难互联在一起,难以实现资源的有效共享
随着计算机互联网的高速发展,各种互联网应用不断涌现,因此需要网络管理技术对网络带宽资源进行合理优化。在使用网络管理相关技术之前首先需要对互联网中的各种应用流量进行识
随着三维激光扫描技术的发展,人们可以快速准确的获得物体表面大量的采样点。但是这些数据非常庞大,对后续的实时和高效的处理带来了很大的挑战,因此准确且高效的处理这些点
随着信息化的不断深入,信息技术给人们的日常生活带来了巨大的便利,同时也使得人们面临的信息安全风险越来越高。通过信息系统安全风险评估,可以有效地对安全风险进行控制和
互联网金融是基于移动互联网,网络支付,大数据等新技术手段,从而实现资金流通,平台中介,资金结算交易相关业务的一种新模式。互联网金融从早期传统金融机构为基础,进行业务线上化、
多机器人系统的追捕-逃跑问题是人工智能和分布式控制领域的一个热点问题,是研究多机器人系统中团队协作的重要途径。追捕-逃跑问题的复杂度会随着参与者的增加呈指数增长,分层
数据挖掘是从大量数据库记录中挖掘出有价值的模式或有规律等知识的复杂过程,已被广泛应用于金融、保险、运输及国防等科学研究领域。其中决策树分类算法是数据挖掘中最为广泛
太阳能电池板作为太阳能转化为电能的器件,其研究与制造得到人们广泛的关注。在太阳能电池板生产过程中,难免会产生一些缺陷,将很大的影响产品的寿命及光电效率。因此在被投入市场之前,缺陷的检测成为一项非常重要的环节。随着自动化技术的发展,目前基于软件的图像处理方法检测缺陷,对采集的图像要求比较高,且识别率达不到工业检测的要求。本文根据计算机视觉中模拟生物视觉机制模型的最新研究进展以及研究成果,对能够模拟具