论文部分内容阅读
深度强化学习简称DRL,利用深度学习的感知能力和强化学习的决策能力,使智能体可以直接进行自主学习,而不需要对原始数据进行复杂的人工预处理。然而DRL算法的训练十分依赖计算资源,需要利用图形处理器、张量处理单元等硬件来加速算法的训练过程。虽然循环神经网络能够有效地处理状态之间存在依赖关系的任务,但比前馈神经网络更耗时。此外,DRL算法虽然在机器人控制、游戏博弈等领域取得了令人瞩目的成果,但是其训练效果的不稳定性依然很严重。本文着眼于DRL算法的训练时间、训练效果、训练稳定性等问题,将多重门限机制、跳跃连接机制和自适应区间裁剪引入到DRL算法中,提出了基于多重门限机制的异步DRL方法。主要研究内容可以概括为以下三部分:(1)基于多重门限机制的异步优势行动者-评论家算法。当DRL算法仅采用前馈神经网络时,无法处理不同时间步状态之间存在依赖关系的任务。虽然循环神经网络可以通过其循环连接结构来记忆不同时间步状态之间的依赖信息,但是其无法利用并行化计算技术加速训练过程,因而需要更多的训练时间。针对此问题,将多重门限机制引入异步DRL算法中,提出了一种基于多重门限机制的异步优势行动者-评论家算法。从理论上分析了多重门限机制的优势,并通过一系列复杂的视频游戏任务验证了算法的有效性。(2)基于跳跃连接的异步优势行动者-评论家算法。DRL算法通过利用深度神经网络对于复杂状态空间的有效识别能力,使得智能体在复杂状态任务中更加有效。但是仅使用前馈网络的基于多重门限机制的异步DRL算法,会因为对于状态特征的错误识别,导致智能体在学习过程中表现得不稳定。针对此问题,在基于多重门限机制的异步优势行动者-评论家算法的基础上,提出一种基于跳跃连接的异步优势行动者-评论家算法。从理论上分析了跳跃连接机制的有效性,并通过一系列复杂的视频游戏任务验证了算法的有效性。(3)基于多重门限机制的自适应近邻区间策略优化算法。上述两个研究是基于深度神经网络模型的,DRL算法的训练效果和稳定性不仅与深度神经网络模型息息相关,还与强化学习算法有着密切的联系。为此,将自适应区间裁剪方法引入到DRL中,提出基于多重门限机制的自适应近邻区间策略优化算法,并通过一系列复杂的连续动作空间控制任务验证了算法的有效性。