论文部分内容阅读
真实世界中往往有很多问题例如交通控制、网络包传输及视频游戏等都会被自然的建立为多智能体系统。在多智能体系统中,智能体之间往往需要协同合作来达成共同的目标。先前有许多工作致力于解决多智能体协同问题,这些算法大多是从Q学习扩展得到的,例如分布式Q学习算法(distributed Qlearning)、策略爬山算法(Policy Hill Climbing,PHC)和递归频率最大Q值算法(recursive Frequency Maximum Q-Value,rFMQ)等。但是这些算法只能解决离散动作空间中的多智能体协同问题。然而现实环境的动作空间大多是连续的。现有的很多算法在解决单智能体连续动作空间学习问题上已经取得了很多成果。这些算法主要可以分为两大类:基于函数逼近方法的算法和基于蒙特卡洛采样方法的算法。基于函数逼近方法的算法又可以被分为基于值近似方法的算法和基于策略近似方法的算法。然而上述算法普遍存在一个缺点,即如果他们被直接应用到解决连续动作空间下的多智能体协同问题中时效率会变低,算法的收敛速度慢或无法收敛。基于以上问题,本课题旨在提出一种强化学习算法框架,目的是高效地解决连续动作空间中的多智能体协同问题。根据算法框架,本课题提出了基于递归频率最大Q值的连续动作学习自动机(Continuous Action Learning Automata with recursive Frequency Maximum Q-Value,CALA-rFMQ)算法,CALA-rFMQ算法结合了现存的离散动作空间中的多智能体协同算法的思路,以及连续动作空间中单智能体学习顺序决策算法的思路。CALA-rFMQ算法首先从连续动作空间中均匀采样;然后本文提出了基于WoLS规则的策略爬山(Win or Learn Slow Policy Hill Climbing,WoLS-PHC)算法,并将其与rFMQ算法思路结合,从采样动作中学出前若干个最优动作,这些动作会将原来复杂的连续动作空间划分为若干个连续动作子空间,并将先验经验传入子空间内;之后智能体分别在每个连续动作子空间内使用改进的连续动作学习自动机(Continuous Action Learning Automata,CALA)算法,在先验经验的指导下分别进行探索;最后根据一定的策略从连续动作子空间内探索到原始连续动作空间内的最优动作。最后本课题分别在单状态的重复博弈环境和多状态马尔可夫博弈环境中验证算法的性能,结论是CALA-rFMQ是十分有效的解决连续动作空间下多智能体协同问题的算法,这也证实了本课题所提出的算法框架的有效性。