论文部分内容阅读
强化学习通常被认为是决策任务的一般形式,与动态规划和博弈论密切相关。多智能体强化学习是多智能体系统研究领域的重要分支,其将强化学习技术和博弈论应用于多智能体系统,使多个智能体可以通过在更高维度和动态真实场景中进行交互和决策来完成更复杂的任务。随着深度神经网络的飞速发展和广泛应用,越来越多的传统强化学习算法与之相结合,形成了深度强化学习方法,来解决现实世界中的维度更高场景更复杂的问题。在多智能体系统中应用深度强化学习方法,正逐步成为强化学习研究领域的前沿热点。本文的研究内容如下:1.本文研究了强化学习中一个前沿的分支即多智能体强化学习。介绍了多智能体强化学习的理论背景,并总结了文献中提出的多智能体强化学习的任务类型和学习目标。重点介绍了多智能体深度强化学习的最新发展,从可扩展性、不稳定性、局部可观察性和通信学习等不同角度对现有的最先进的算法进行了分类。总结了多智能体深度强化学习目前的应用领域以及其他潜在的研究方向。2.本文研究了基于多智能体深度确定性策略梯度模型的算法。多智能体深度确定性策略梯度模型是基于演员评论家框架的,而由演员评论家网络训练的智能体往往会过高估计价值函数,这会导致智能体学得的最优政策欠佳和智能体行为不收敛。为了解决这个问题,我们采用了集中训练分散执行框架,并提出了一种新算法,即多智能体双重深度确定性策略梯度(MA3DPG)算法。首先受传统强化学习方法Double Q学习的启发,我们采用双重评论家网络结构,通过在成对的独立训练的评论家之间取最小值来减少过高估计,使智能体可以学习到最优的策略。其次我们采用延迟策略更新,使策略网络以低于值网络的频率进行更新,以便在策略网络更新之前将误差降至最低,解决了智能体行为不易收敛的问题。于此同时我们通过优先批处理加快了训练速度,我们在OpenAI的Gym环境任务中将我们的算法与最先进的方法多智能体深度确定性策略梯度(MADDPG)进行了比较,并证明了我们的方法优于它。3.本文研究了基于改进的并行粒子群算法的异步强化学习算法。异步强化学习方法在单智能体强化学习环境中取得了不错的效果,正逐步被应用到多智能体场景中。但是,当使用现有的异步强化学习算法来解决问题时,由于智能体的搜索范围有限,通常无法减少算法的运行次数。同时,传统的不基于模型的强化学习方法不能保证收敛到最优结果,这会导致在实际应用中的出现资源浪费问题。针对这些问题,我们将粒子群算法PSO应用于异步强化学习算法,以寻求最优解。首先,我们提出了一种新的PSO算法的异步变体。然后将其应用到异步强化学习算法中,提出了一种新的名为基于反向Q学习的Sarsa算法和异步粒子群优化算法(APSO-BQSA)的异步强化学习算法。最后,通过实验验证了本文提出的异步PSO和APSO-BQSA算法的有效性。该论文有图19幅,表7个,参考文献86篇。