基于交互回归模型的存储设备性能预测

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:huli890615
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
存储系统(尤其是现在的大型合并存储系统,例如云存储系统、大型数据库系统等)的管理有两个重要的内容:一个是数据部署问题;另一个是存储系统的自动化配置问题,当前存储系统的管理主要依靠人工来完成。但是,近年来存储系统和数据库系统越来越大型、高端,使得存储系统的管理变得越来越复杂,管理代价也越来越高,同时,人工管理的方式也已经越来越不现实。如果有自动化机制能对每一个输入的工作负载在目标存储设备上的性能进行准确的预测,那么系统就能实现自动化管理;因此,存储设备性能预测已经变成大型存储系统和数据库系统自动化管理中的关键问题。   传统的存储设备性能建模方法可以概括为两大类:分析方法和模拟方法。这两种建模方法都要求对目标设备内部的架构、参数、算法等十分了解,并且需要大量的领域专家知识,正是由于这些原因,它们也被称之为“白盒方法”。然而,现在的存储系统日益的大型、高端、复杂且种类多样,设备内部的详细信息很难得到,这使得传统的白盒方法很难实现,同时白盒方法也不具有通用性。与之相对,“黑盒方法”将目标设备看成一个黑盒。它不需要设备内部的详细信息和参数,也不需要任何的领域专家知识,而是通过使用统计或机器学习的方法来观察设备对工作负载的响应,自动的学习设备的性能习性,从而构造目标设备的性能模型。本文中我们采用基于机器学习的方法进行存储设备性能预测。   本文首先提出一种新的工作负载特征化方法,它将工作负载定义为一连串的I/O请求,对每个I/O请求设计相应的特征来捕捉I/O请求的排队时间,寻道时间和数据传输时间。该方法不仅能捕获I/O请求的突发性和排队时间,同时也量化的考虑了缓存的影响。其次,本文提出一个新的交互回归模型,该模型结合了回归树和支持向量回归各自的优点,规避了各自的弊端,具有很高的预测精度和稳定性。最后我们讨论了训练数据对模型性能的影响,给出了一种提升训练数据质量的方案。实验表明,我们提出的新特征化方法能够更好的描述工作负载的特性。新提出的交互回归模型在不损失预测效率的前提下能提供比单一模型更好的预测精度和稳定性。在从真实应用程序中收集的工作负载中加入人工合成的工作负载能有效的提升模型的性能。
其他文献
现代社会网络技术迅猛发展,网络评卷系统作为一种新型的评卷方式具有很大的活力和发展前景,随着网络评卷系统应用的普及,人们对网络评卷系统的安全要求也随之提高,将权限引入
无线传感器网络是集信息采集、信息传输、信息处理于一体的综合智能信息系统,具有广阔的应用前景,是最有发展的技术之一。目前,无线传感器网络的应用已经非常广泛,涉及很多领域。
物联网技术在企业应用领域的快速发展,促使RFID技术得到了广泛应用。但目前的RFID解决方案中,以针对大型应用业务集成开发为主,不具有业务可定制性,且成本高、开发周期长。而
目前,随着信息技术的不断发展,多媒体资源大量膨胀,进而满足用户对多媒体数据的检索成为了信息服务的挑战之一。图像数据作为多媒体数据的重要组成部分,其已经成为在教育、科技等
疾病是人类永恒的课题,疾病威胁着人类的健康。过去的几十年里,高通量实验技术的发展,使得我们能够在较短时间内获得大量的实验数据。这些高通量实验数据使得临床诊断、药物治疗
近些年来,由于Android系统平台的自由开放性,搭载该操作系统的智能手机市场份额不断扩大,适用于Android平台的应用软件也呈现出暴涨趋势。此外应用软件开发成本低,发布上线管理松
  人工神经网络从诞生至今经过了六十多年的演变,相对于传统神经网络,第三代人工网络脉冲神经网络(Spiking Neural Network,SNN)更好地模仿了生物神经元的工作原理。SNN中
本文研究同态加密体制的构造及应用。在构造方面,首先对现有的类同态加密方案和全同态加密方案进行了较全面的介绍,重点介绍了全同态加密方案构造中采用的Gentry蓝图和BV11b方
随着计算机及网络技术的飞速发展,我们已经进入了一个全新的信息化社会。这些技术的应用对我国的考试体系的改革产生了巨大的影响。网上报考、网络考试、网络评卷等一系列新
代谢是生物必不可少的生理功能,负责维持细胞的生命。因此,代谢过程对基础生物学、生物技术和医学的研究者都是一个重要而有趣的研究课题。代谢通常被定义为一系列生化反应的集