基于Q学习算法的移动机器人路径规划方法研究

来源 :北京工业大学 | 被引量 : 17次 | 上传用户:syh95815
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动机器人在动态环境和未知静态环境中缺乏环境相关的先验知识,这就要求其具有较强的灵活性与适应性来应对各种状况。所以,针对静态环境中的移动机器人,本文研究并设计了基于深度自动编码器(Deep Auto-Encoder,DAE)与Q学习算法相结合的路径规划算法。然后,针对动态环境下的移动机器人,本文设计了两层规划策略,并且将遗传算法(Genetic Algorithm,GA)与Q学习算法应用在路径规划中。论文的主要研究工作和取得的研究成果如下:(1)在静态环境路径规划中,提出了深度自动编码器与Q学习算法相结合的数据处理方法。使用BP神经网络拟合深度自动编码器提取的环境特征数据与移动机器人位置数据,实现了环境特征与移动机器人全局坐标的非线性拟合。然后使用该BP神经网络输出的位置信息得到奖励值R,并将其反馈给Q学习算法进行Q值迭代。在Q值迭代过程中实现了自主学习,机器人不断地选择不同的运动方向行进使Q值达到最优,从而使规划的路径达到最优。最后,使用MATLAB对该方法进行了仿真实验,实验结果表明使用此方法提高了Q学习算法处理大规模数据的能力,打破了它只能处理小规模数据的限制。(2)在动态环境路径规划中,提出了先“离线”后“在线”的两层路径规划策略,对不同运动状态的物体采取不同的规划策略。第一层运用遗传算法从起始点到目标点进行全局路径规划躲避环境中的静态障碍物,规划出的路径作为原始路径。在第一层的基础上,第二层策略使用Q学习算法进行动态避障,当移动机器人与小车达到安全距离时,移动机器人就回到原始路径继续行走到达目标点。最后,使用V-REP机器人仿真平台对该方法进行了仿真实验,结果表明使用本文提出的两层路径规划策略实现了动态环境下的路径规划。(3)提出了一种新的Q值表设计方法,解决了Q学习算法应用在动态连续环境中存储空间不足和维数灾难问题。该方法将时间离散化为时刻,以“时刻-动作”为索引来建立Q值表,将根据状态选择动作的问题转化为根据时刻选择动作的问题。通过仿真实验验证了本文提出的Q值表设计方法的可行性,使Q学习算法可以应用于动态连续环境。本文利用Q学习算法与深度自动编码器相结合的数据处理方法,提高了Q学习算法处理大规模数据的能力,同时打破了Q学习算法只能处理小规模数据的限制。新的Q值表设计方法为研究Q学习算法在动态连续环境中的应用提供了新的思路和方法。此外,本文使用Q学习算法进行路径规划为以后研究智能机器人的自学习能力提供了理论基础和实验参考。
其他文献
学位
本课题是河南省科技攻关项目“基于DSP的方波无刷直流电动机(BLDCM)舵机伺服系统”。 舵机是飞行器的重要组成部分。其性能指标的优劣直接影响飞行器的制导的精度。国内电
皮带传动一体化起动发电机(Belt-driven Starter Generator,BSG)起停系统可减少发动机怠速运行时间进而降低油耗和尾气排放。交错磁极无刷直流起动发电机是一种电动势为梯形
为了克服传统智能机器人研究中的种种困难,缩小其与实际应用之间的距离,一种全新的“动物机器人”正逐渐成为研究的热点。所谓“动物机器人”就是指利用动物作为运动本体,背负或
由于变化检测技术具有非常广泛的应用背景,在诸如城区规划、植被覆盖调查、防灾减灾、地图更新等方面都有着相当广泛的应用,因此一直是遥感图像处理中的研究热点之一。本文在总
本文研究了时滞神经网络的稳定性和线性切换系统的可交换且稳定反馈设计,并对切换神经网络的运动作了仿真。对时变时滞神经网络,给出了判别全局渐近/指数稳定性的充分性条件,去
PID控制是自动控制中产生最早、应用最广的一种控制方法,但在目前的实际应用中也存在着不少问题:许多参数整定方法只适用于满足经验公式条件的对象,且只利用了较少的系统动态特
近年来,随着大数据、物联网的迅猛发展,基于个人导航的定位服务在军事、商业、科学等领域也受到了广泛关注,成为了目前导航与定位研究的主要方向,并且随着MEMS惯性器件越来越
电磁法勘探技术是人工场源勘探技术之一,是地球物理勘探技术中的重要手段。电磁发射机作为一个电磁信号发射装置,通过电能变换将输入的交流信号变换为高电压、可控频的交流方波
电脑游戏作为一种新兴的产业已经逐渐得到各个国家重视,自然交互技术作为电脑游戏一个重要组成部分,其研究亦有一定的理论意义和使用价值。随着计算机技术的发展,传统的人机交互