基于强化学习的路径规划问题研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:liushanxue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不确定条件下的人机共生研究领域关注以机器学习为核心的环境和态势感知、动作或路径规划与决策,以及对决策结果的评价。它即包含科学理论问题,也有许多工程技术问题。研究这些科学问题和工程技术问题有明显的理论意义和实用价值。本课题主要研究未知环境下智能体路径规划的强化学习解决方案。机器人或智能体在特定环境下的路径规划是指从指定起点找到一条到达终点的路径,该路径不与障碍物发生碰撞。路径规划问题的研究由来已久,也产生了许多成熟的算法,但是这些算法多数基于已知环境模型,并结合搜索的方法。然而在很多情况下,环境的模型难以获取;另一方面,机器人执行动作时由于控制误差或环境因素导致发出的指令和执行结果产生偏差,无法按照规划好的路径去行走,甚至无法到达终点;第三,规划出的路径可能十分曲折,充满拐点,不利于机器人的实际行走。针对以上几个问题,本文利用强化学习中时间差分法来解决路径规划问题,并且针对强化学习中存在的探索利用平衡问题提出了优化的解决方法。论文主要内容如下:(1)使用强化学习中的时间差分法解决路径规划问题。相比于其他算法,优势在于不需要对环境进行建模,而且具有一定的自适应性和自学习能力,能够应对智能体运动存在不确定性的情况。利用仿真实验对算法进行了验证,结果表明时间差分法能够较快收敛,并且可以在任意位置找到到达目标的路径。(2)改进强化学习在实际应用中存在的探索与利用平衡问题。在强化学习中,探索环境与利用环境是一直存在的两个过程,过多的探索会使训练时间变长,过多的利用会使智能体收敛到不正确的解上,如何平衡探索和利用便成了一个重要的研究方向。传统方法通常随着训练时间的增加而减少探索,没有考虑环境和问题本身的复杂程度。本文基于路径规划问题,以智能体到达目标成功率为指标来衡量智能体对环境的掌握程度,从而动态调整探索因子,使智能体在对环境掌握程度较低时更多地对环境进行探索,在对环境掌握程度变大时逐渐减少探索,更多地利用环境。利用仿真实验进行了验证,结果表明改进后的探索方法能够更好地平衡探索与利用,使智能体更快到达目标点。
其他文献
原有编译原理课程教学在教学内容、教学环节、教学方法等方面存在一定问题。本文尝试从典型案例设计、实验实践教学模式、与其他课程知识相融合、与各类应用相结合、复合型考
针对目前大部分课程各自为阵、互不往来,且部分课程内容陈旧的情况,本文提出了一种目标驱动的核心课程和实践体系设计的系统化方法,从具体的核心培养目标(对学生而言,应该是可操作
目的 分析并发于颅脑损伤的颈项损伤症候群的临床特点,探讨其诊断与治疗,以进一步提高颅脑损伤患者的治疗效果.方法回顾性分析2000年6月~2003年7月处理的颅脑损伤患者283例,对其中并发颈项损伤症候群的患者进行分析.结果 283例患者中有明确颈项征候群(症状或体征)者42例,占14.8% .其中明确诊断为颈部损伤者39例,占13.7%,临床推断为颈部损伤者3 例,占1.1%.该症候群主要是指:与
85年前,毛主席在“古田会议”上批判8种非无产阶级思想时明确指出:“红军党内最迫切的问题要算是教育问题。”85年后,习主席在全军政治工作会议上深刻剖析10个方面突出问题时
学生掌握了学习方法,有了自学能力,就有了开启语文学习大门的钥匙,就可以登堂入室,在知识的王国中自由地翱翔。 Students master the learning methods, with self-learning
纵观川端康成所有的文学作品,其中以女性主题尤为突出,其代表作《雪国》是一部描绘日本本国风土人情的佳作。通过对书中两位女性人物的塑造展现了日本本国传统女性在人格方面