【摘 要】
:
为解决传统的深度Q网络模型下机器人探索复杂未知环境时收敛速度慢的问题,提出了基于竞争网络结构的改进深度双Q网络方法(Improved Dueling Double Deep Q-Network,IDDDQN)。
【机 构】
:
河北工业大学人工智能与数据科学学院,河北工业大学河北省大数据计算重点实验室,河北工程大学
【基金项目】
:
天津市科技计划项目(No.14ZCDGSF00124);天津市自然科学基金(No.16JCYBJC15600)
论文部分内容阅读
为解决传统的深度Q网络模型下机器人探索复杂未知环境时收敛速度慢的问题,提出了基于竞争网络结构的改进深度双Q网络方法(Improved Dueling Double Deep Q-Network,IDDDQN)。移动机器人通过改进的DDQN网络结构对其三个动作的值函数进行估计,并更新网络参数,通过训练网络得到相应的Q值。移动机器人采用玻尔兹曼分布与ε-greedy相结合的探索策略,选择一个最优动作,到达下一个观察。机器人将通过学习收集到的数据采用改进的重采样优选机制存储到缓存记忆单元中,并利用小批量数据训练网络。实验结果显示,与基本DDQN算法比,IDDDQN训练的机器人能够更快地适应未知环境,网络的收敛速度也得到提高,到达目标点的成功率增加了三倍多,在未知的复杂环境中可以更好地获取最优路径。
其他文献
随着改革开放步入40年,中国的对外开放程度不断加深,中国与全球经济的联系也越发密切。尤其在近年美国持续性加息的国际经济大环境下,中国受到来自美国等主要国际经济体的货
嫦娥五号飞行试验器是我国首个采用绕月自由返回轨道飞行的航天器,为了提高其自主运行能力,嫦娥五号飞行试验任务的星上软件需要在出现入轨大偏差情况下,具备在轨自主应急制
卢卡奇认为马克思主义哲学的本质是辩证法,其核心范畴是具体的总体.一方面他并不认同恩格斯对自然界的辩证理解,从而认为马克思的辩证法是理解社会和历史的唯一科学的方法;另
首先,对深度强化学习(DRL)的兴起与发展进行了回顾.然后,将用于高维连续动作空间的深度强化学习算法分为基于值函数近似的算法、基于策略近似的算法以及基于其他结构的算法3
基于深度学习图像语义分割模型SegNet,提出了一种基于深度学习的实时图像语义分割框架RT-SegNet(Real time segmentation network)。框架分为3个阶段:编码阶段、解码阶段和降
随着城镇化进程的加快,城郊公路交通流特征发生显著变化,公路城市化现象趋势明显,导致城郊公路交通拥堵现象严重。以沪南公路为例,在分析现状沪南公路交通拥堵原因的基础上,进一步
针对多仓储移动机器人协同作业问题,提出了一种基于全局规划和局部调整的路径规划方法,以获得较短、无碰、避障的可行路径.在路径规划时根据当前节点到终点的距离和局部路径
夏季体育教学小议郭仁辉夏季,赤日炎炎,高温酷暑,学生普遍对体育课有畏难情绪,更有少数学生怕热或怕中暑,借故请假,上课缺席学生较多,教学质量难以保证.因而,夏季如何上好体育课,就成为
<正>人类前进的足迹伴随着大量资源的消耗和生态系统的破坏,同时造成环境污染和贫困加剧的恶性循环。无论是在全球范围内还是就中国自身而言,环境恶化和生态退化均没有得到足
<正> 我国主要粮食品种质量水平与国外相比差距很大,加入WTO以后,尽快提高粮食生产的综合竞争力,是摆在我们面前的重要任务。近年来我国优质专用粮食的推广种植面积正在快速