基于深度强化学习的DNN推理业务调度系统研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:chywei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的几年中,DNN已被证明是解决许多实际问题的通用有效工具,使用DNN的应用数量呈爆炸式增加。DNN推理业务已开始成为云计算环境所提供的服务之一,低延迟,高准确度的响应质量成为服务提供者的目标。受深度强化学习在AI领域的良好变现,人们也尝试用深度强化学习方法来实现DNN推理业务系统的高质量响应。本文主要研究以下几个问题:1.基于深度强化学习的DNN业务调度。如今,这些问题中的大多数都是通过精心设计的启发式方法解决的。仔细研究该领域的最新研究可以发现,典型的设计流程是:(1)提出了巧妙的启发式方法来简化问题模型;(2)认真测试和调整启发式方法,以在实践中取得良好的性能。如果问题的某些方面(例如工作量或兴趣度量)发生变化,则通常必须重复此过程。而深度强化学习的深度神经网络因为具有强大的特征提取能力,无需人为建立模型,只需给系统输入观察,并制定目标,强化学习的代理就会朝着目标的方向学习出理想的策略。即使某些方面变化,强化学习也不需要重新建模。本文使用了 DQN,Double DQN,Dueling DQN,AC,A3C等常见的深度强化学习来解决DNN推理业务的调度问题。DNN请求的响应质量是由处理延迟和结果精准度表示的函数,范围在0-1之间,结果显示所有的方法在测试数据上都能达到0.9以上的请求响应质量。2.基于深度强化学习的DNN推理业务调度的在线学习问题。在问题1的研究中发现,当训练已经收敛的强化学习代理应用于一些与训练环境差别很大的新环境时,由于训练时并未学习到这些特征,导致在测试时结果并不好。然而,在实际应用中,环境不断变化时很正常的,所以必须要让代理学习在线学习。本文首先研究了 A3C和DQN的在线学习,基于任务在短时间内是连续的,使用短时间内的小批量学习,代理用前面短时间内的经验进行训练,然后应用于后面的任务。这种方法虽然能达到很高的请求响应质量,但是训练所需的时间却很长。然后本文使用基于模型的元学习方法,这种方法是直接对动力系统建模。模型对参数的变化很敏感,使用少量的训练数据就可以快速收敛,结果显示虽然请求响应质量不如前者,但是模型很稳定而且使用时间也大大减少了。3.基于用户体验的DNN推理业务调度问题。以前的工作都没有区分用户,也不考虑用户的公平性问题,本文加入用户标签,考虑用户公平性。本文首先在服务器端考虑用户公平性,依然使用深度强化学习方法,并在代理的目标中加入了用户公平性的指标,但是结果并不理想,原因是这种方法会产生很多无用的经验,值得学习的经验相对较少,导致代理学习困难。所以本文将这一问题与下一问题结合在一起考虑。4.基于深度强化学习的多代理学习。将代理由服务器端移到客户端,研究多代理学习问题。越来越多的手机端开始具有机器学习的能力,机器学习终端化已成为趋势,所以本文考虑将代理放置在客户端考虑,并将问题3也在多代理学习方法中解决。本文使用多个独立的AC代理独立学习,因为现实中,每个用户只能得到自己的信息是合理的。每个代理输入只有自己能看到的状态,并输出自己的决策,但是每个代理的目标是自己的请求响应质量最大化以及关于所有用户的公平性指标最大化。结果显示这种方法不仅能让用户的请求响应质量得到保证,而且用户之间的公平也得到了保证。
其他文献
现代远程教育是21世纪教育振兴的一项重大工程,而利用现代远程教育的技术和手段发展职业技术教育具有一定的现实意义和十分广阔的市场前景,是我国职业教育发展的一个重要举措
<正>慢性扁桃体炎是儿童上呼吸道反复感染中一种常见的疾病,发病率约为22.04%[1],临床主要表现为反复的咽痛、咽部不适、阵发性咳嗽、发热以及呼吸吞咽困难等症状,在儿童,慢
感知是认知的一部分,是人们对于外界刺激的最直观的情绪反应。现阶段,学者们已经广泛认识到认知心理学在消费者决策领域的重要性,对感知、认知的关注度也日趋提升。而针对服
湖北省汉川市马口镇是历史有名的制陶名镇。汉川马口窑生产的陶器在器型、装饰手法和题材内容上形成了独立于中国古代官窑以外的最具特色的民窑文化,被誉为"中国民窑之首"。
作为重要产业之一的染料行业是高度污染产业,会有大量的高色度、高COD值、高毒性、难降解的有机污染物被排放到水中,给人类生活和生态环境造成极大的威胁,严重危害着地球生物
1公路日常养护现状由于长期受到养护条件和技术制约,我们一直无法对不同病害、不同状况的道路做到对症下药,管养道路病害无法标本兼治。先进国家公路养护的经验告诉我们,沥青
学习者的学习投入或学生的行为、情感和认知投入完成学习任务的过程被称为学习的圣杯。在21世纪,将面对面与计算机媒体教学相结合的学习将越来越融合。学者们已经开始在混合式学习情境中探索学生的学习投入及其影响因素(测量指标)等方面的内容,但是,目前尚未没有普遍接受对学习者学习投入定义,尤其是在混合式学习背景下,针对技术媒体环境中学习者学习投入的研究尚未形成成熟、稳定的理论框架来指导研究和实践。在不断变革的