论文部分内容阅读
针对强化学习中Q-learning算法在复杂环境下难以进行路径规划的问题,将深度卷积神经网络的特征提取能力与强化学习的决策能力相结合,提出了一种基于深度强化学习的改进算法。该方法用值函数近似法代替Q-learning中的动作值函数,设计了包含四层结构的深度卷积神经网络,以网络的输出代替传统的Q值表,解决了Q-learning在状态空间较大时产生的维数灾难问题。在栅格环境下进行仿真实验,结果表明该方法相较于Q-learning算法能够在复杂的环境下进行路径规划,并在新的测试集上取得了87%的识别率,具