基于强化学习的移动机器人自适应模型研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:wf136156491
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动机器人在未知环境中的自适应导航和避障能力决定了其智能化的程度,提高移动机器人的自适应导航和避障能力一直是机器人领域研究的热点方向。目前,主要的自适应导航和避障的算法有人工势能法、模糊规则控制法、遗传算法等。但是这些算法的自适应能力不强,需要较多的环境先验知识,难以有效地实现移动机器人在完全未知环境中的自适应导航和避障。强化学习是一种通过与环境交互调整自己的行动策略,最终找到实现目标的最优策略的机器学习算法。基于强化学习的自适应导航和避障算法能很好的解决上面提到的问题,具有很强的自适应能力。但是,强化学习方法训练时间过长,收敛慢。本文的研究方向为使用强化学习中的Q-learning算法实现移动机器人在未知环境中的导航和避障,并对Q-learning算法进行优化来提高其收敛速度。本文首先定义了移动机器人的运行环境状态、动作形式、奖励函数等强化学习的基本要素。然后,提出了两种改进的Q-learning优化模型:1)基于任务的附加奖励函数的Q-learning模型;2)基于Q-learning的混合Dyna模型。最后,分别使用这两种模型在HBE-SmartCAR移动机器人上进行实验,并与其他模型进行比较分析,实验结果表明这两种模型能有效提高算法的收敛效率。本文的主要贡献点如下:(1)使用ARIMA模型对移动机器人的声呐数据进行处理,减少了数据噪音,提高了声呐数据的稳定性。(2)提出了一种基于任务的附加奖赏函数,在不依赖先验环境的同时,提高了Q-learning算法的收敛速度。(3)提出了一种基于Q-learning的混合Dyna算法,该混合模型分别在以下方面做了改进:a)使用CMAC神经网络对环境进行模拟,在训练过程中对动作值函数进行计划更新;b)使用优先级队列减少了普通Dyna模型中规划更新的随机性,提高了规划更新的效率;c)使用了本文提出的一种基于目标的动作值函数初始化方法来初始化Q表,在不借助先验环境的基础上有效地减少了移动机器人前期探索的盲目性;d)使用了一种基于神经网络的启发式动作选择方式来提高移动机器人动作选择的效率;e)使用了基于目标的附加奖赏函数来提高奖赏值的有效性。
其他文献
目的 分析风湿性心脏病患者冠状动脉病变情况.方法对117例瓣膜置换术前风湿性心脏病患者行选择性冠状动脉造影,并与心电图检查结果进行对比分析.结果冠状动脉造影示11例患者(9.40%)合并单支或多支冠状动脉狭窄,20例患者(17.09%)存在冠状动脉管腔不规则和(或)轻度狭窄;心电图示72例患者有心房纤颤,68例患者有ST-T改变或Q波异常.结论 50岁以上风湿性心脏病患者拟行瓣膜置换术前行冠状动脉
目的从爆发期条浒苔中提取、分离多糖并对其理化性质进行研究。方法对干燥后的条浒苔乙醇脱脂后采用热水和热碱提取,得到了两种条浒苔粗多糖ECP1和ECP2,通过Q-Sepharose FF阴
操作系统原理有较强的理论性和抽象性,学生们普遍反映学习操作系统的原理和方法十分困难。本文主要从合理组织教学内容,采用形象直观的原理图来取代大段的文字叙述,揭示各复杂问
加强学生党员的党性修养是高校做好学生党建工作的重要内容。本文分析了现阶段高校学生党员党性修养方面存在的一些问题,结合本学院的实际情况和学生党建工作体会,探讨了加强其
1777年Stoll首先报道了尸检发现3例胆囊癌,历经二百余年的历史,尽管目前对原发性胆囊癌的早期诊断率偏低,根治性手术切除率不高,中晚期外科治疗效果较差,但较之20世纪六七十年代的诊治水平已有提高,对胆囊癌的认识以及基础研究取得了明显进展。
本文在分析水利水电工程专业创新型人才培养现状与紧迫性的基础上,提出了"以比赛促创新,高年级带动低年级滚动式发展"的专业创新型人才培养模式。
随着能源问题和环境问题的日益突出,清洁可再生能源开始备受关注,太阳能以其绿色资源丰富等优势成为最有发展前景的新能源之一,随之,光伏发电也开始逐渐占据发电市场,成为缓
近年来,随着光钳技术(optical tweezers)、基因组序列(sequence analysis)方法、x射线晶体成像(x-ray crystallographer)分析以及荧光荧光显微镜(fluorophore image)等实验技