内存计算系统参数自动调优研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:heyouzhang035
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
内存计算系统(例如Spark)已经广泛用于处理工业界的海量数据。为了提高这些系统的计算效率和鲁棒性,系统开发人员为用户提供了许多高度可配置的参数。由于高维度的参数空间和复杂的参数交互作用,手工调优这些参数既耗时又低效。因此,用户急需一种内存计算系统的参数自动调优方法。目前参数自动调优常用的方法是基于机器学习的方法(Machine Learning-based, ML-based),ML-based方法中需要解决的一个关键问题是应用程序的性能预测问题。
  ML-based方法中为应用程序构建性能预测模型需要应对以下两方面的挑战:(1)收集训练数据需要耗费大量时间;(2)在训练数据有限的情况下,性能预测模型的准确率很低且鲁棒性差。为了应对这些挑战,设计并且实现了一个内存计算系统配置参数的自动调优系统ATCS,它是一种基于生成对抗网络(Generative Adversarial Network, GAN)的新的参数自动调优方法。ATCS可以使用较少的训练数据并且不牺牲模型准确率来构建性能预测模型。此外,在ATCS中使用了优化的遗传算法来探索内存计算系统的参数空间,以获得性能最佳的配置参数组。
  为了证明ATCS系统的有效性,在Spark上选择了五个经常使用的工作负载,每个工作负载都在五个不同大小的数据集上运行。实验结果表明,ATCS提高了五个常用Spark工作负载的性能。与默认配置相比,ATCS平均提高了3.5倍的性能,最高可达到6.9倍。实验结果还表明,为了获得相似的模型精度,ATCS训练数据的数量仅为深度神经网络(Deep Neural Networks, DNN)训练数据量的6%,支持向量机(Support Vector Machines, SVM)训练数据量的13%,决策树(Decision Tree, DT)训练数据量的18%。此外,在五种典型的Spark应用程序上,与其他机器学习模型相比,ATCS的平均性能提升为DNN的1.7倍,SVM的1.6倍,DT的1.7倍。
其他文献
随着信息时代快速发展,数据量呈爆炸增长,大数据应用对数据存储的容量、性能和可靠性提出了更高要求。基于闪存的固态盘因具有高性能、低功耗等优点被广泛应用。但闪存采用多位堆叠及缩小制程等方法提高存储密度,致使读操作对闪存内数据的干扰加重,读干扰逐渐成为影响闪存可靠性的主要因素。因此,如何高效地进行读干扰管理以提升固态盘的性能和寿命,成为了研究热点。  读干扰管理的方法是将受读干扰影响严重的数据进行迁移,
学位
与传统磁盘相比,基于闪存的固态盘(SSD)由于高性能、低延迟等特性已被广泛使用在消费类和企业级存储市场。影响固态盘性能的因素之一是盘内完成从逻辑地址到物理地址转换的地址映射算法。随着闪存容量的快速增长,受限于价格、工艺、能耗、体积以及可靠性等多因素影响,固态盘内置RAM的增长速度落后于闪存容量的增长速度,引起内置RAM大小不足,导致地址映射算法中映射缓存不命中和映射条目替换加剧,带来额外的闪存读写
学位
基于闪存的固态盘(NAND Flash-based Solid State Disk/Drive)因其低延时、低能耗、高抗震等特点被广泛应用在便携式设备、个人计算机及企业级存储系统中,并逐渐替代传统磁硬盘,在存储市场占据重要地位。固态盘控制器通过成对的写入/擦除操作改变闪存单元电压以存储数据,每对写入/擦除操作都会对闪存单元造成可累积的磨损。然而,闪存单元能够承受的磨损是有限的,一旦足量的闪存单元
学位
海量小文件会对分布式存储系统的读写性能产生极大影响。在分布式存储系统中,针对小文件读写性能的优化工作主要采用聚合和缓存预取机制,但仍存在以下问题:(1)现有的小文件聚合机制没有充分考虑小文件负载序列的时序特征,造成聚合块内文件关联度较低;(2)固定的聚合块大小不能适应小文件大小范围多变的特点,导致小文件写性能下降;(3)现有缓存替换算法没有综合考虑文件访问时间、访问频率以及缓存价值,导致小文件读取
深度卷积神经网络(Deep convolutional neural network,DCNN)常被用于处理机器视觉的任务,包括目标检测、场景标记等。DCNN具有计算量大、数据量大、模型结构复杂多样的特点,这些特点给异构加速带来挑战。目前,大多数DCNN加速器在有限的片上资源下,使用固化的数据流处理不同的DCNN模型计算,导致性能和能效下降。  针对上述问题,提出了兼顾能耗和性能优化的灵活的可重配
随着互联网的飞速发展,数据库的应用也越来越广泛,推动着数据库性能不断优化。数据库的查询优化是数据库性能优化研究的一个重要分支,其中表连接顺序的优化几乎是所有数据库查询优化器的核心,其目的是尽可能生成执行时间更短的查询计划。由于数据库代价模型、维护的统计数据的不准确,以及连接顺序搜索算法的局限性,现有的数据库管理系统经常会错过执行时间更短的表连接顺序。  针对上述问题,提出了一种基于机器学习和蒙特卡
新兴移动应用如虚拟现实/增强现实、车联网、人工智能、高速视频流等往往要求超低的服务延迟,传统的云计算服务架构难以满足日益严苛的用户需求。边缘计算通过将资源和服务向边缘下沉,以就近执行用户任务,可以有效缓解用户设备本地计算资源不足的问题,同时避免与远端云的数据传输,从而极大地降低服务延迟,已被视为未来网络的支撑性技术之一。  然而与远端云相比,边缘云计算资源仍是有限的。如何合理地选择任务进行卸载,并
学位
随着人工智能技术的发展,人们对对话系统的期待更多转移到沟通交流的需求。情感是影响人际沟通的重要因素,具备情感认知与表达的能力是智能的更高层级表现,其能够从更深层次理解与满足人类需求。然而目前大多数对话生成研究致力于提升回复的多样性与流畅性,忽略了情感表达的要求。融合情感认知的对话生成方法研究以对话中的情感信息为切入点,通过预测与表征对话文本中的情感信息,使对话系统具备情感感知的能力,然后将情感信息
学位
云计算是信息时代的重要发展趋势和国家重大发展战略。近年来,全球性的网络安全事件频发,而云环境由于虚拟机同质化等缺陷,用户隐私数据安全问题更加突出。在发生安全问题后,隐私侵犯取证成为大量企业和用户进行法律维权首要面临的难题。目前虚拟环境中隐私侵犯取证研究还不完善,主要存在两个问题:一是受限于特定或单一的指令集架构、操作系统或产品;二是细粒度的实时监控会给客户机带来过大的性能开销。  针对上述问题,虚
学位
RDF(Resource Description Framework)作为描述Web资源的标记语言,因其结构简单表达灵活的特性常用于表示图数据。SPARQL(Simple Protocol and RDF Query Language)是W3C(World Wide Web Consortium)推荐的标准RDF查询语言。随着RDF数据规模的急剧增长,如何高效响应SPARQL查询成为当前RDF图数
学位