基于深度强化学习的室内移动机器人导航研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:cjwmyzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的不断发展,室内移动机器人在工业、家庭环境中承担着日趋复杂的任务。在实际应用中,室内移动机器人需要在未知、复杂、动态环境下对障碍物进行实时规避,实现自主导航。在导航过程中,除了要求机器人能够安全规避障碍物并到达指定目标,使用者通常还对导航效率以及能量消耗提出了更高的要求。受此启发,本文设计了一种基于奖励分解和记忆增强的深度强化学习算法。该方法通过分解和设计奖励函数来学习多维控制策略,并引入记忆模块增强机器人的记忆能力,实现了在未知、复杂、动态的环境下室内移动机器人的避障导航。这种方法可以直接从视觉输入中学习到与动作值函数显著关联的特征,实现从第一视觉图像观测到多维导航策略的直接映射。实验结果显示,该方法可在规避障碍物、快速到达目标的前提下减少能量的消耗,并且在动态环境下机器人也能够根据前序信息做出恰当的决策。本文的主要工作可总结如下:首先,针对避障任务,提出了一种新颖的基于深度强化学习的机器人自主避障算法。特别地,对于最优值函数难以被有效地简化为低维表示的领域,本文设计了一种新的奖励分解架构,它将不易学习的多维避障策略分为多个子任务,即速度控制分支和方向控制分支,其中每个分支都包含了避障奖励知识。通过设计奖励函数,每个子任务分支能够学习单独的值函数。这种结构充分利用了深度学习特征映射,使各个子任务能够更好地学习特定领域的经验知识,做出更恰当的避障决策,降低了避障策略的学习难度。实验结果表明,该算法可以在未知的静态和动态环境下进行自主避障运动,并且在速度、变向次数以及碰撞前的探索步数三个性能指标上的表现更加优秀。然后,针对无地图导航任务,提出了一种基于记忆增强的深度强化学习算法。基于部分可观测的概念,本文通过引入长短期记忆网络,设计了记忆模块来增强机器人的记忆能力。长短期记忆网络收集随时间推移的信息的并选择合理的更新方式,辅助机器人对历史信息进行长期跟踪。机器人在无地图的情况下能够利用环境所反馈的视觉信息来做出更好的导航决策,在遇到动态障碍时也能预测性地避开。考虑到单目彩色图像缺乏深度信息,引入全卷积残差网络对图像的深度进行预测,并将预测深度图作为Q网络的输入来提高算法的性能。通过奖励分解架构,设计了速度控制、方向控制、目标趋近三个分支所对应的奖励函数来学习多维的导航策略,并提出了分支的融合方法。实验结果表明,该算法在未知、静动态环境中能够到达指定目标,其导航效率和能耗都表现得更好。最后,在机器人操作系统框架下利用Gazebo模拟器搭建了机器人避障和导航的三维室内仿真环境,并创建了订阅和发布话题的机制以用于通信过程。以机器人Turtlebot为仿真对象,用可视化方式验证了本文算法的可行性。
其他文献
社会生产生活用电量的不断扩大和城市面积的扩张,,造成配电变电站越来越接近城市居住密集区,配电变压器噪声已成为影响变电站附近居民生活品质的重要问题。为尝试解决配电变压器的噪声辐射问题,本文基于配电变压器的声振特性和约束阻尼复合结构,研究并开发了一种适用于典型配电变压器本体降噪的新型高效隔声结构。本文主要开展了以下几个方面的研究内容:首先,基于实际测量,分析探讨35k V和110k V两种典型配电变压
我国装配式建筑进入快速发展期,由于技术的不成熟、各专业之间信息链断裂等因素,导致装配式建设项目普遍出现施工进度延误和由于施工误差引起的质量问题,对装配式建筑施工过程进行有效监控是项目成功的关键因素之一。然而,目前施工现场数据的采集主要依靠人工的方式,耗时耗力、信息不全面,三维激光扫描技术的出现为采集施工现场数据提供了一条新的途径。为了更好地对装配式建筑施工过程进行管理,本文提出一种基于点云模型特征
学位
石墨烯作为典型的二维晶体材料,由单层碳原子构成。它凭借自身优异的力学、电学、热力学特性和稳定的化学特性,在全球范围内引起了广泛的关注,并在柔性电子元器件、能量存储、散热材料等领域具有潜在的应用前景。然而,在器件的设计和应用过程中,需要考虑摩擦这一常见的物理现象。因此,观察石墨烯微观的摩擦行为,预测不同因素影响下摩擦现象的变化规律,并在此基础上探究摩擦的起源是进一步根据设计需求调控摩擦力的前提。本文
学位
随着人工智能科技的发展,机房智能化安全管理和运维将成为必然趋势。为了实现机房巡检的自动化、智能化,国内多家企业和科研机构开始研究应用于机房设备巡检的移动机器人。为了克服现有轨道式巡检机器人机械系统存在的不足,本文研发设计一款新型轨道式机房巡检机器人,用于代替人工对机房设备进行巡检,有效避免人工巡检存在的安全隐患,提高设备巡检的效率。本文在调研分析国内外巡检机器人研究现状的基础上,结合机房内部环境特
大型工程项目建设如火如荼,促进了经济和社会的快速发展,但同时带来了征地拆迁、资源占用、环境污染等诸多复杂的社会性问题。大型工程开发建设带来的社会影响具有累积性特征,负面影响持续性累积极易引发社会矛盾,破坏社会和谐。目前,社会影响评估领域缺乏关于累积性社会影响评估方法的研究。本文为推动累积性社会影响评估的实践,对大型工程累积性社会影响评估方法论进行探讨,并逐步构建累积性社会影响评估方法框架。本文通过
随着天然气工业的快速发展,作为天然气采输作业中关键的中转站,集气站的正常运作尤为重要。集气站中的大量仪表时刻监控并显示着集气站作业的运行情况,而人工统计仪表数据尤为繁琐,且耗时耗力,效率低下。同时集气站位置偏远,环境恶劣,天然气本身属于危险气体,人工巡检存在安全风险,所以集气站巡检机器人的研究势在必行。本文以集气站巡检机器人为载体,集气站中的指针式仪表和数字仪表为研究对象,研究可用于集气站环境下的
钢货架结构以其轻质、高强的力学性能优势被广泛运用在仓储物流行业,其中框桁式钢货架结构应用较为广泛。框桁式钢货架结构在垂直于巷道向与沿巷道向表现出力学性能各向异性的力学特点,垂直于巷道向刚度较大,地震作用时货物容易发生脱落,冲击其他货架造成连续倒塌,因此垂直于巷道向的隔震问题至关重要。针对该问题结合课题组前期研究成果,提出了以隔震为主的复合式隔震支座系统,采用隔震技术实现垂直于巷道向的抗震目标,防止
磁共振成像(Magnetic Resonance Imaging,MRI)技术在医疗诊断的临床应用中使用广泛。MR图像通常具有不同模态,多模态图像信息融合有助于提高自动医学图像分析诊断系统的准确性和可靠性。考虑到多模态医学图像获取的困难,研究医学图像的跨模态合成技术,即从一种模态医学图像自动生成另一种模态医学图像的技术,可以从已知模态生成未知模态数据,减少多模态采集成本、实现数据集曾广、减少模态之