一种复杂环境下基于深度强化学习的机器人路径规划方法

来源 :计算机应用研究 | 被引量 : 4次 | 上传用户:jianzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对强化学习中Q-learning算法在复杂环境下难以进行路径规划的问题,将深度卷积神经网络的特征提取能力与强化学习的决策能力相结合,提出了一种基于深度强化学习的改进算法。该方法用值函数近似法代替Q-learning中的动作值函数,设计了包含四层结构的深度卷积神经网络,以网络的输出代替传统的Q值表,解决了Q-learning在状态空间较大时产生的维数灾难问题。在栅格环境下进行仿真实验,结果表明该方法相较于Q-learning算法能够在复杂的环境下进行路径规划,并在新的测试集上取得了87%的识别率,具
其他文献
鄂豫皖苏区红色文化是中国共产党带领人民在鄂豫皖边区进行革命斗争而产生和遗留下来的革命遗址、革命精神、红色制度、红色艺术等的集合体,具有较高的育人价值。我党对鄂豫
随着市场经济的深入发展,社会主义新农村建设的推进,特别是县域经济的异军突起,“市管县”体制渐渐失去了原有的功效,市县关系调整迫在眉睫,在此背景下,“省直管县”体制改革
通过对长江上游经济带和川南港群协同发展背景以及川南产业群、城市群和港口群协同发展状况分析,提出加快推进港口建设,建立港口间合作机制;加强合作,深挖潜力,整合港口片区
A new compound,[Cu(mal)(tmdpy)(H2O)]·4H2O(1,H2mal = malonic acid,tmdpy = 4,4’-trimethylenedipyridine) has been synthesized by the hydrothermal synthesis a
通过对新疆卡克地区上石炭统别根他乌组105个岩石薄片进行显微镜下观察,识别出6种微相:MF1灰泥灰岩微相、MF2含生物碎屑灰泥灰岩、MF3生物碎屑粒泥灰岩、MF4含生物碎屑亮晶似
Nanoscale tetragonal BiOCl samples have been synthesized using Bi[SC12H25]3 and CHCl3 as bismuth and chlorine sources by solvothermal reactions. The structure,
随着公路自动化发油系统应用频率的不断提高,该系统发生溢油现象的几率越来越高,在了解溢油原因的基础上,采取有效措施进行防范,极大提高该系统的应用效果。本文首先对公路自
β-Na YF4:Yb3+,Er3+ microrods were synthesized through hydrothermal methods. Polyethylene glycol with molecular weight of 6000 was used as surfactant. A series
苹果酸脱氢酶(malate dehydrogenase,MDH)广泛存在于自然界当中,负责催化苹果酸与草酰乙酸之间的可逆转换,在细胞的多种生理活动中发挥重要作用,如C4循环、光合作用、TCA循环
研究了简单剪切与纯剪切的关系,得出了:(1)简单剪切可看成纯剪切加转动,转动角θ有;(2)若简单剪切椭圆的长轴与坐标轴X的夹角为φ,相应的纯剪椭圆长袖与坐标轴y的夹角为β0,则φ=β0;(3)橡胶在双向