基于强化学习的自主移动机器人反应式自救控制

来源 :上海交通大学学报 | 被引量 : 0次 | 上传用户:hongshouwang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解救陷入环境障碍的自主移动机器人,提出了一种基于强化学习的自救脱困控制方法.该方法通过移动机器人与环境的交互作用,能够在线学习实现脱困自救的运动控制策略,并利用机器人自身条件克服环境障碍,避免了实施救援机器人的行动和终止其作业任务所造成的损失.利用工作环境的先验知识指导,设计含有启发信息的强化学习系统回报函数,保证搜索和学习控制策略向正确方向进行,同时提高学习控制器的适应性和鲁棒性.数字仿真证明了通过自学习控制策略实现自救脱困的可行性.
其他文献
针对船用核动力装置在正常运行瞬态、异常瞬态和事故瞬态时,水位类参数易于虚假显示,以及因测量通道、测量仪表故障导致的参数丧失问题,提出了一种基于多信号耦合的重构方法.
近代以来,建立在地缘环境与内生禀赋基础上,作为后发崛起国的日本,其海洋战略经历了曲折的演变过程,对其国运兴衰产生了重大影响。本文勾勒塑造日本海洋战略的关键要素,分阶
目的探讨胰岛素治疗妊娠期糖尿病的治疗效果与对母婴的影响。方法选取2010年9月—2014年2月来该院治疗妊娠期糖尿病患者180例,随机分为治疗组与对照组,对比两组临床治疗效果
提出了机构系统概念设计的步骤 :( 1 )工艺动作过程的构思 ,这种构思方法主要有基于实例的改善、基本动作的综合和拟人化分析等几种 ;( 2 )将工艺动作过程实现动作分解 ,分解
我国高等教育在新时期完成了从精英教育向大众化教育的转型,社会的变革要求高等学校与社会的联系更加紧密。社会主义大学的教育目的是培养社会主义事业的建设者和接班人,培养大
地下商业街作为一种地下建筑形式,被广泛运用在现在空间紧张的城市里,而且一般规模较大。同时,地下商业街除了具有一般商场的可燃物多、火灾荷载大的特点,也因为其封闭性、安
《中华人民共和国刑法修正案(八)》于2011年2月25日由第十一届全国人民代表大会常务委员会第十九次会议通过,自2011年5月1日起施行。该修正案第二条、第十一条和第十四条规定
美国次贷危机的爆发使得高管薪酬为世人瞩目。2009年梁家驹、2011年殷可为、王石的天价薪酬把我国企业高管推到了风口浪尖。近几年来,我国上市公司高管薪酬问题随着高管薪酬
超级电容器作为一种新型储能器件,具有功率密度高、循环寿命长、充电时间短、可靠性高和环保节能等优点,因此有望被广泛应用于消费电子品、内存备份系统和工业电力及能源管理
移动互联网蓬勃发展,各种类型的OTT业务逐渐侵蚀着传统电信运营商的利润空间,消费者的需求和产品购买习惯也出现着巨大的变化,中国电信业内率先提出企业战略转型的目标,期望