针对机器人运动规划的深度强化学习方法的研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:xueyanli122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器人在工业制造和人们的生活中发挥着重要的作用,在全自动化工厂(fullyautomatic factory)和无人驾驶(the driverless car)等领域都离不开机器人和相关机器人技术的支持。近年来,机器人运动规划已经成为了机器人学、自动化控制和人工智能等领域的研究热点之一。不过,机器人运动规划大多是基于精确的环境模型,无法处理不确定条件下的运动规划问题。该文针对不确定条件下机器人运动规划问题,提出使用深度强化学习的方法进行研究。概述运动规划相关知识,并分析传统运动规划方法所存在的问题;介绍强化学习和深度学习,分析强化学习应用在机器人运动规划上所存在的问题,并提出将深度学习与强化学习相结合以解决传统强化学习的高维度问题;分析深度强化学习方法应用在机器人运动规划上所存在的关键性问题,即奖励值模型、探索策略和神经网络结构,并给出相应的解决方法。该文主要内容如下:1.对强化学习中的奖励值模型进行研究。分析奖励值模型的影响因素及存在的问题,为更快速的训练系统,该文提出基于系统收敛速度的奖励值模型,并开展不同奖励值模型之间的对比实验。2.对强化学习中探索与开发的平衡问题进行研究。分析?-greedy策略所存在的问题,在探索新环境的时候,提出N?-greedy策略来处理探索与开发的平衡问题使得小估值动作也会被执行,以保证系统能更快速的探索新环境;并开展?-greedy策略与N?-greedy策略之间的对比实验。3.分析深度学习中神经网络结构对整个运动规划的影响。为设计出适合当前运动规划任务的神经网络结构,设计不同结构的神经网络,并开展相关的对比实验。4.实现基于深度强化学习的机器人运动规划算法,构建基于深度强化学习的机器人运动规划系统;开展在有障碍物与没有障碍物环境下的运动规划实验,以验证深度强化学习方法解决运动规划问题的可行性。
其他文献
目的:将以外源性HSP70为目的基因的重组真核表达质粒pIRES2-EGFP-HSP70转染入人肺癌A549细胞,观察其在A549细胞中的表达及对A549细胞生长的影响,以期为进一步研究HSP70作用于
<正>在日常生活中,人体的负重、行走都依赖足部正常的生物力线。异常的生物力学环境可导致骨小梁不同程度的微骨折;长期处于这种环境下,易使骨小梁发生软骨下骨硬化及囊性等
目前我国食用菌总产量占世界总产量的90%以上,每年生产大量食用菌的同时也产生了数量庞大的废弃菌棒。废菌棒随意丢弃会污染土壤、水体,简单焚烧会污染大气,严重污染环境。本
在高校教育惩戒中,学生权利保护的核心是个体权利的保护。为了在高校教育惩戒与学生权利保护之间取得平衡,教育惩戒应是实现教育目的的必要手段,惩戒规定应该力求明确,学生所
<正>4月10日,京东集团创始人刘强东在今日头条个人官方账号上宣布了一项"百万京东便利店计划":未来5年,京东将在全国开设超过一百万家京东便利店,其中一半在农村。"每个村都
本文基于政策角度,探析我国中小学心理辅导室装备具有发展与矫治相结合、生理与心理安全相结合、柔性政策特点显著等特征。未来则呈现出装备专业化、等级化、指标化的发展趋
从最直白的意义上说,电视受众就是看电视的人,只要在看我们的电视,就是我们的受众,没看我们的电视,就不是我们的受众。但问题并非如此简单。在市场经济条件下,任何一个企业,任何一种
目的通过检测肝细胞癌AFP(+)、AFP(-)及肝脏良性病变中NF-κB、Bcl-2、Fas、FasL蛋白的表达,结合肝细胞癌的临床病理参数,探讨它们在肝细胞癌发生、发展中的作用机制。方法用