论文部分内容阅读
提出了一种基于Boltzmann策略的Q学习算法,该算法适用于多机器人系统的路径规划优化问题。该算法由两部分组成:基于Q学习的路径规划和基于Boltzmann的策略选择。Q学习是一种基于网格的算法,能够用于解决低维的路径规划问题;基于Boltzmann的策略可以防止路径选择算法陷入局部最优解,以此达到全局最优解。为了对提出的算法进行性能评估,作者将算法在Player Project机器人仿真平台上实现,仿真实验结果表明,基于Boltzmann策略的Q学习算法可以显著提高多机器人系统的效率,减少探索次数,加快收敛过程。