特定路网环境下基于强化学习的运动协调算法改进研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:wujie1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随着第五次信息技术革命的爆发,机器人、人工智能等技术得到了迅猛的发展。智能机器人在日常生活中也扮演着越来越重要的角色,被广泛地应用于物流、快递、餐饮、超市等场景。由于机器人所面对的场景任务比较多元和复杂,往往需要多个机器人相互合作共同完成,而多机器人之间的运动协调问题便是一个不可回避的核心问题之一。本文将车式移动机器人当作研究对象,在一个特定的二维路网环境下,利用深度强化学习算法训练出一个智能体,它能够控制多个机器人在运动过程中不发生碰撞,并且能够以较短的时间完成各自的任务。本文首先提出了一种多误差双深度Q网络(Multi-Loss Double DQN,MLDDQN)算法,它在深度Q网络(Deep Q-Network,DQN)算法的基础上,利用一个目标网络池保存K个训练过的目标网络,目标网络的权重和目标网络的存储时间成反比。在新一轮的迭代训练过程中,它将K个目标网络的Loss进行加权求和得到新的Loss,并且更新目标网络池。相比于DQN算法,该算法能够使目标网络值函数的估计方差减小,使神经网络训练更加稳定,加快训练速度。然后本文将MLDDQN和多机器人运动协调问题相结合,构造机器人路网环境的状态空间,制定离散的动作空间以及设计出奖励函数模型。通过反复的迭代训练得到一个智能体,可以产生一组可行的运动协调策略。虽然MLDDQN算法能够解决多机器人运动协调问题,但是它将机器人的动作进行了离散化处理。在实际场景中,机器人的运动是一组连续的动作。因此本文又提出了一种结合深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法的多机器人运动协调算法。该算法利用机器人移动的连续速度值设计动作空间,并且重新制定了状态空间以及奖励函数模型,经过迭代训练,同样能够得到一组可行的运动协调策略。相比于离散动作方法,该算法得到的运动协调策略更加符合实际情况,且机器人的动作序列更优。为了验证本文提出算法的正确性和高效性,将MLDDQN算法、DDPG算法和主流的DQN、DDQN、Averaged DQN算法在包含不同多条路径的协调任务上进行了对比实验和分析。实验结果表明,利用MLDDQN算法训练得到的运动协调策略能够有效地避免多机器人在运动过程中发生碰撞,并且收敛速度明显优于主流的算法。DDPG算法的实验结果比离散动作算法的表现都好,有效弥补了离散动作的不足之处,具有实际应用意义。
其他文献
目前,农村留守人员主要为老年人、妇女和儿童,由于他们年龄、文化和能力有限,对新农业技术认识和接受能力有限,加上长期在落后的农业生产观念影响下,新技术消化、吸收比较缓
基督教与佛教、伊斯兰教并称世界三大宗教。至今,除日本外的主要发达国家都是基督教文化主导的国家。20世纪,除了南美、非洲、亚洲的韩国等地,中国也是基督徒人数增长最快的地区和国家之一。基督教的主要活动之一——布道及其口译对其传播起到了重要作用。尽管如此,目前学术界主要局限于基督教文献笔译研究,口译研究较少。本报告基于模拟英汉交传实践报告,材料来源于约翰·派博(John Piper)牧师在2019福音联
磨边机是瓷质砖深加工工序中的重要一环,直接影响瓷质砖生产精度和产品质量,而横梁组件作为承载磨边轮、压梁、转臂机构等的关键机构,直接关系到磨边机的生产性能和加工质量,
车站值班员担负着统筹协调铁路运输各方面的工作,要全盘把控车站运输资源的调配,及时应对设备故障、临时限速、计划调整等各种突发情况。长时间的高强度紧张工作会导致生理和心理的疲劳,给铁路运输带来安全隐患。现阶段,为了保障值班员的良好工作状态,仅仅采取了待岗休息2小时的措施,而对在岗期间的工作状态缺乏监管,为了应对疲劳带来的运输安全风险,对车站值班员的工作疲劳状态进行实时检测和评估具有重要的研究意义。语音
数据包分类在Internet应用程序中的使用相当广泛,例如路由、过滤、入侵检测、计费、监视和虚拟专用网络等。包分类根据指定的过滤规则将每个数据包映射到一个流中,这些规则通常是数据包首部的某个字段(比如IP字段)或是某些字段(IP字段,端口字段,协议等)的组合。系统首先对数据包进行协议解析和字段抽取操作,接着依据协议类型以及分类字段对数据包进行分类处理,如转发、拒绝和丢弃等。通常对于数据包分类问题的
B(s)到轻介子遍举衰变在粒子物理现象学研究中具有重要的作用。迄今为止,人们已经从理论和实验上对末态只包含S波介子的过程进行了广泛的分析,但对于涉及高轨道激发态介子(p波介
激光熔覆由于热输入低、冷却速度极快、基材变形小、界面冶金结合良好等优点,在机械零件修复领域中得到了广泛应用。但在制备WC/IN718复合涂层时,WC陶瓷颗粒和IN718镍基合金
强乘积是一种图运算,利用强乘积方法可以通过一些小图构造大图,并且由小图构成的大图保留小图的许多好性质,研究强乘积图各方面的性质具有理论意义和潜在应用价值。本论文主
微波热致超声成像(Microwave-induced Thermal Acoustic Tomography,MITAT)是一种用于乳腺癌检测的新技术。该方法结合了微波成像(Microwave Imaging,MI)高对比度和超声成像(Ultrasonic Imaging,UI)高分辨率的优势,在早期乳腺癌检测中展现出良好的应用前景。微波热致超声(Microwave-induced Termal
在这个信息化快速发展的时代,信息化已经覆盖社会各个角落,即便是相对落后的农村信息化建设也在蓬勃发展。社会的各个阶层一直在致力于农村信息化建设,以期改变农村的社会面