论文部分内容阅读
未知连续环境状态下的Q学习路径规划算法在执行对环境的试错时收敛速度慢,容易陷入局部,不利于对真实未知环境的探索,为解决此问题,针对Q学习路径规划问题提出一种基于Metropolis准则的区域扩张策略的势场强化学习算法。算法为环境提供势场先验知识初始化状态信息,消除初始时刻的盲目性,提高学习效率,同时引入基于Metropolis准则的区域扩张陷阱区域剔除探索,剔除陷阱障碍物环境的凹形区域。通过MATLAB对多种环境的仿真实验,验证了算法有效性。