论文部分内容阅读
AGV(Automated Guided Vehicle)导航问题是一个连续状态空间问题,直接应用传统表格型增强学习方法存在维数灾难和学习效率低等问题。近年来,近似强化学习和策略梯度算法等增强学习方法的提出和改进为有效解决维数灾难和泛化问题以及AGV反应导航问题提供新的方法和手段。文中首先分析了AGV的运动环境模型,并建立了马尔可夫决策过程模型。在此基础上结合神经网络和策略梯度下降法,提出了一种基于Actor-Critic算法框架的AGV导航算法,并利用Matlab仿真验证了算法的适用性。