论文部分内容阅读
强化学习是一种重要的机器学习方法,在智能控制及分析预测领域有很多应用。学习者通过与环境进行不断试错性的交互来改善自身行为,所以很适合于学习者在对环境了解甚少的问题域中学习控制策略。多Agent强化学习是传统强化学习的改进,其利用多个Agent共同协作学习,能更好的适应开放、复杂、动态变化的环境。首先,对于单Agent强化学习算法,研究并改进了启发式动作选择的强化学习方法。在每幕学习结束后,运用状态回溯方法来分析这幕学习中的状态转移过程,用以指导接下来Agent的动作选择,加速学习过程。其次,对于集中式多Agent强化学习,运用一种分解策略将总任务分解成各子任务,进而分发给各独立学习的Agent去完成。学习过程中,各Agent将对其它Agent获取的经验进行学习,并将自身的经验共享出去,再运用经验总结方法进一步强化好的行为,使学习能够更快的收敛。多目标围捕实验结果表明所研究方法是有效的。最后,针对采用联合行为的多Agent协同强化学习,各Agent先建立自身的合作树来选择合作对象,再结合团队马尔可夫博弈与Q学习共同影响联合行为策略,从而使协作的所有Agent的联合行为收敛到全局最优解。最后设计的红、蓝方对抗实验验证了此方法的可行性。