论文部分内容阅读
在过去的几年中,DNN已被证明是解决许多实际问题的通用有效工具,使用DNN的应用数量呈爆炸式增加。DNN推理业务已开始成为云计算环境所提供的服务之一,低延迟,高准确度的响应质量成为服务提供者的目标。受深度强化学习在AI领域的良好变现,人们也尝试用深度强化学习方法来实现DNN推理业务系统的高质量响应。本文主要研究以下几个问题:1.基于深度强化学习的DNN业务调度。如今,这些问题中的大多数都是通过精心设计的启发式方法解决的。仔细研究该领域的最新研究可以发现,典型的设计流程是:(1)提出了巧妙的启发式方法来简化问题模型;(2)认真测试和调整启发式方法,以在实践中取得良好的性能。如果问题的某些方面(例如工作量或兴趣度量)发生变化,则通常必须重复此过程。而深度强化学习的深度神经网络因为具有强大的特征提取能力,无需人为建立模型,只需给系统输入观察,并制定目标,强化学习的代理就会朝着目标的方向学习出理想的策略。即使某些方面变化,强化学习也不需要重新建模。本文使用了 DQN,Double DQN,Dueling DQN,AC,A3C等常见的深度强化学习来解决DNN推理业务的调度问题。DNN请求的响应质量是由处理延迟和结果精准度表示的函数,范围在0-1之间,结果显示所有的方法在测试数据上都能达到0.9以上的请求响应质量。2.基于深度强化学习的DNN推理业务调度的在线学习问题。在问题1的研究中发现,当训练已经收敛的强化学习代理应用于一些与训练环境差别很大的新环境时,由于训练时并未学习到这些特征,导致在测试时结果并不好。然而,在实际应用中,环境不断变化时很正常的,所以必须要让代理学习在线学习。本文首先研究了 A3C和DQN的在线学习,基于任务在短时间内是连续的,使用短时间内的小批量学习,代理用前面短时间内的经验进行训练,然后应用于后面的任务。这种方法虽然能达到很高的请求响应质量,但是训练所需的时间却很长。然后本文使用基于模型的元学习方法,这种方法是直接对动力系统建模。模型对参数的变化很敏感,使用少量的训练数据就可以快速收敛,结果显示虽然请求响应质量不如前者,但是模型很稳定而且使用时间也大大减少了。3.基于用户体验的DNN推理业务调度问题。以前的工作都没有区分用户,也不考虑用户的公平性问题,本文加入用户标签,考虑用户公平性。本文首先在服务器端考虑用户公平性,依然使用深度强化学习方法,并在代理的目标中加入了用户公平性的指标,但是结果并不理想,原因是这种方法会产生很多无用的经验,值得学习的经验相对较少,导致代理学习困难。所以本文将这一问题与下一问题结合在一起考虑。4.基于深度强化学习的多代理学习。将代理由服务器端移到客户端,研究多代理学习问题。越来越多的手机端开始具有机器学习的能力,机器学习终端化已成为趋势,所以本文考虑将代理放置在客户端考虑,并将问题3也在多代理学习方法中解决。本文使用多个独立的AC代理独立学习,因为现实中,每个用户只能得到自己的信息是合理的。每个代理输入只有自己能看到的状态,并输出自己的决策,但是每个代理的目标是自己的请求响应质量最大化以及关于所有用户的公平性指标最大化。结果显示这种方法不仅能让用户的请求响应质量得到保证,而且用户之间的公平也得到了保证。