【摘 要】
:
深度强化学习具有深度学习和强化学习的双重优势,不但理论取得重大突破,而且获得实际应用。随着机器人应用领域的广泛,工作环境更加复杂多变,对机器人的导航和智能化能力要求更高,传统的路径规划方法已无法满足现代机器人的需求。这时就需要进一步提升机器人的自适应力和自主决策力。人工智能中的深度强化学习方法对机器人路径规划彰显了优异的性能,该方法通过与环境交互试错实现机器人路径规划任务。本文以深度强化学习方法作
论文部分内容阅读
深度强化学习具有深度学习和强化学习的双重优势,不但理论取得重大突破,而且获得实际应用。随着机器人应用领域的广泛,工作环境更加复杂多变,对机器人的导航和智能化能力要求更高,传统的路径规划方法已无法满足现代机器人的需求。这时就需要进一步提升机器人的自适应力和自主决策力。人工智能中的深度强化学习方法对机器人路径规划彰显了优异的性能,该方法通过与环境交互试错实现机器人路径规划任务。本文以深度强化学习方法作为机器人路径导航算法,研究内容如下:首先,对深度强化学习的基础理论深入研究。针对深度强化学习方法中随机采样机制对样本等概率采样,导致网络训练过程中过多采用信息较低的样本,提出一种二次采样机制,通过样本的TDerror分布进行采样,提高更有信息价值样本的回放频率。将二次采样机制应用到深度Q网络,构成一个基于二次采样的深度Q网络方法,并在Mountain Car场景验证该方法。实验表明,该方法可以提高算法收敛速率,改善学习效果。其次,为了使本文采用的深度强化学习方法在机器人路径规划任务中,具有更好的收敛性和规划能力。把机器人在运动过程中通过传感器获取的机器人附近障碍物的信息及目标位置的方位信息离散化,进而设计出适用的机器人环境模型和动作空间;设计一种非线性分段奖励函数,及时反馈机器人采取的每一个动作;改进深度强化学习中的探索与开发策略,采用greedy策略和Boltzmann分布函数相结合的探索策略,减少无效探索,提高算法训练过程的稳定性。最后,搭建基于ROS与Gazebo的三维机器人仿真实验环境,测试改进方法在未知环境中路径规划能力与泛化性,以及路径规划框架设计的有效性。首先根据设计的机器人路径规划方法,搭建机器人模型与仿真环境;其次,在仿真地图中测试改进方法是否能有效避障,并成功引导机器人到达目标位置,获取最佳或次佳路径;最后,加载改进方法SS-DQN-GB训练好的网络模型,在16种不同环境信息的地图中测试该方法的泛化性与自适应力。
其他文献
共晶高熵合金是近年来兴起的一种新型合金,它兼具高熵合金和共晶合金的优点,不仅拥有优异的综合机械性能,还具有良好的铸造流动性,因而被受到广泛关注。高温度梯度定向凝固技术作为一种先进的金属材料制备方法,通过改变抽拉速度和温度梯度,不仅能够精确调控组织形态和提高力学性能,还可以研究合金的凝固行为。本课题使用电弧熔炼法制备AlCoCrFeNi2.1铸态母合金,在此基础上,通过定向凝固技术,并结合OM、XR
短距离无线通信网络具有移动连接、高速通信、成本低廉等优势,在物联网、大数据、人工智能等领域有巨大的发展潜力。然而,由于在部署基础设施时该网络呈现出节点随机移动性、通信环境不稳定性以及区域能量高消耗性等特征,将导致覆盖范围不足、节点布设冗余、局部区域空洞等问题,如何实现通信节点的高效覆盖及快速优化,是短距离无线通信技术亟待解决的难题和挑战。因此本文分析短距离无线通信网络特性,针对现有方法的不足,提出
近年来,对于军用直升机机载光电探测系统发展迅速。在满足良好成像性能的前提下,具有体积小、适用多谱段的光学系统成为研究热点。除了满足光学性能外,为了提高作战能力,降低由悬挂吊舱式光电探测系统飞行时带来的空气阻力,对光电探测系统及其光学窗口提出了共形要求。共形光电防撞系统具有全天候成像性能,并加入激光三维雷达提供障碍告警,避免撞击提高生存能力,同时光学系统的外形具有空气阻力小的优点。本文的应用价值在于
滚压加工是通过滚柱挤压工件表面,使其发生弹塑性变形,从而将工件表面的波峰压平、波谷填平,提高其表面质量的一种精加工方法,它具有效率高、应用范围广等优点。目前滚压加工主要应用于对工件表面或浅孔(l/d<10)的精加工中,但在深孔(l/d≥10)加工中由于滚压头处于半封闭状态,不能准确判断加工状况,无法保证表面质量,因此并未广泛应用滚压加工方法进行精加工,而是依旧采用磨削方法进行精加工,这种传统方法存
随着现代工业生产进一步发展,发展具有高速、高精等特征的三维测量技术需求日益强烈。然而,传统的相移阴影莫尔三维轮廓术由于存在着相移过程费时费力、系统标定复杂、数据处理速度慢等一系列问题,已无法满足现代制造工艺上述测量要求。因此有必要发展一种快速阴影莫尔测量轮廓术。对此,本文深入研究阴影莫尔测量原理,发展了一种快速阴影莫尔三维轮廓测量方法,具体完成了以下工作:(1)研究了变光源阴影莫尔测量原理,提出了
爆炸点空间位置的准确测量对检验兵器系统的效能非常重要。基于多相机图像采集与分析的交汇法为空间坐标测试提供了极佳方案,测试模型的系统参数的准确获取是获得高精度测试结果的关键。针对近地炸点空间位置的测试需求,本文采用“双目等高异侧对视交汇”的布站方式,主要进行了对未知点的空间位置解算和系统参数标定技术的研究。首先推导了理想共线对视交汇下的目标位置解算公式,在此基础上,进一步分析了实际测试状态下相机主点
G3-PLC是电力线载波通信(Power Line Communication,PLC)常用的国际标准。由于国内电力网络环境复杂,通信信道存在噪声干扰严重和信号衰减明显等问题,降低了G3-PLC系统的通信可靠性。为提高G3-PLC系统的信道适应能力,在对其物理层传输模型研究的基础上,通过纠错编码和物理层信号滤波相结合的方式优化通信可靠性,完成了算法的设计并实现了一套具有较高通信可靠性的G3-PLC
自动机驱动机构是高射速武器正常运行的关键,由于长时间处于高温、高压等极端环境下,所以也是故障发生率最高的部件。自动机驱动机构故障类型主要集中在三个方面:转膛衬套闭气性、关重件强度、滑板滑动位移。因此,对于转膛自动机驱动机构的故障检测与诊断方面的研究就显得尤为重要。本文针对转膛自动机驱动机构部分的各类故障,并结合其系统的功能需求与技术指标,完成了转膛自动机驱动机构故障检测与诊断系统总体方案的设计,其
随着齿轮制造精度的提升,对其主要测量仪器齿轮测量中心的测量精度有了更高的要求。几何误差是影响齿轮测量中心测量精度的主要误差来源,对其快速检测并准确辨识,是提高齿轮测量中心测量精度的基础保障。球杆仪是一种使用方便、测量速度快的高精度误差检测工具,已经成为机床领域误差检测的主流工具。但球杆仪检测出的误差,不仅包含几何误差,还耦合有运动误差,本论文的主要目的是利用球杆仪的测量数据,剔除齿轮测量中心的运动
商洛地区由于其特殊的地理位置环境导致强降雨多发,是陕西省内典型的强降雨多发地区。为在发生强降雨时保证商洛地区公路、设施运行安全,在发生灾情、突发情况时积极响应,对商洛地区强降雨环境下路面受损的应急响应进行研究。本论文根据我国强降雨环境下路面受损应急响应和路面养护管理的现状,以商洛地区强降雨环境下路面受损养护管理应急响应时的决策优化问题为研究对象,在路面性能预测和评价基础上,分析商洛地区强降雨环境下