论文部分内容阅读
强化学习是一种重要的机器学习方法,其特点是通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为,并且对环境的先验知识要求很低。多Agent强化学习是传统强化学习的改进,其利用多个Agent共同协作学习,达到并行处理的效果,减少了学习时间,加快寻找最优策略的速度。本文主要工作是设计了一种分层的多Agent强化学习模型,包括任务层,工作层,通信层和决策层。指出了模型各层的作用与实现的方法。进一步,结合多核技术,给出在多核环境下模型的实现。同时介绍了相关性能指标,可对实现后的模型进行性能评价。基于分层的多Agent强化学习的模型,本文还提出了主任务分发和子任务分配多Agent Q学习方法。前者实现了基于信息融合的决策层和加锁模式通信层;后者实现了基于信息仲裁的决策层和无锁模式通信层。两种算法分别可用于解决在多核环境下机器人路径规划和多路口交通信号控制问题。在采用主任务分发多Agent Q学习方法后,机器人路径规划仿真实验结果表明相对于单Agent Q学习方法,学习速度加快,收敛时间减小,能合理利用计算资源。在采用子任务分配多Agent Q学习方法后,多路口交通信号控制仿真实验结果表明,相对于定时控制与传统Q学习控制,车辆平均等待时间和排队数减少,交通更加通畅。所有实验结果证明了所提方法的有效性。