【摘 要】
:
视觉语言航行(Vision-and-Language Navigation,VLN)是在未知环境中让机器人依据自然语言指令,以不同时刻下可见范围内的视觉点信息为参考实现航行,最终到达目标位置,这项任务对基于感知智能实现认知智能具有重要意义。然而现有研究方法对于感知信息的处理仍然存在着信息利用不完整的问题,对于认知智能的实现还缺乏现实意义。因此,本文提出基于长短期记忆(Long Short-Term
论文部分内容阅读
视觉语言航行(Vision-and-Language Navigation,VLN)是在未知环境中让机器人依据自然语言指令,以不同时刻下可见范围内的视觉点信息为参考实现航行,最终到达目标位置,这项任务对基于感知智能实现认知智能具有重要意义。然而现有研究方法对于感知信息的处理仍然存在着信息利用不完整的问题,对于认知智能的实现还缺乏现实意义。因此,本文提出基于长短期记忆(Long Short-Term Memory,LSTM)网络的机器人视觉语言航行算法解决信息融合、效率优化以及模型泛化性提升等问题,以弥补现有方法的不足,并提高本任务的潜在应用价值。首先,针对多模态输入信息编码不完整的问题,提出基于LSTM网络视觉语言特征融合的航行算法。以模态内-模态间-模态内的结构为框架提出跨模态特征融合方法,使用Res Net-152预训练模型、结合词袋模型的双向LSTM(Bi-directional LSTM,Bi-LSTM)网络分别提取视觉特征和语言特征,以LSTM网络为核心,结合语言指令跟随的监控评价以及机器人动作选择的回溯单元,构建完整航行算法。在Matterport3D模拟器下使用R2R(Room-to-Room)数据端到端地对模型进行训练,在已知环境和未知环境测试所提算法的有效性及视觉语言航行任务的表现能力,实现机器人视觉语言航行任务。其次,针对难以同时优化航行任务成功率和航行轨迹长度的问题,提出基于A2C(Advantage Actor Critic)深度强化学习的跨模态视觉语言航行算法。以A2C强化学习算法为基础,设计Actor网络,利用LSTM网络隐层信息设计Critic网络,根据机器人最终位置距目标位置的距离设计奖励函数,以相隔时间点下机器人位置距目标位置距离的差值为标准进行奖励塑造,构建深度强化学习训练方法。实验结果表明,基于深度强化学习的视觉语言航行算法能够在保证视觉语言航行任务成功率的基础上,缩短航行轨迹长度。最后,为了提高视觉语言航行模型在未知环境下的泛化能力,提出基于数据增强的视觉语言航行方法。使用跨模态特征融合方法,以LSTM网络为核心对航行任务中航行轨迹和视觉信息进行编码,以不同于编码器中的跨模态融合方法和LSTM网络解码得到语言指令输出,构建Cro-Speaker数据增强方法。反向R2R数据集中的航行轨迹方向,基于环境对视觉信息进行dropout,使用所提数据增强法合成新数据,并提出SD、CSD、SCSD三种结合数据增强的训练方法。实验结果表明,所提数据增强方法能够得到更加准确的语言指令信息,结合数据增强的训练方法能够得到具有多样性的数据,使机器人在未知环境中有效完成航行任务。
其他文献
连铸是钢铁冶金生产过程中的重要环节,为提高钢铁生产效率与产品质量,实际生产中常采用多流连铸的生产方式,并且要求每一连铸流中的结晶器按照给定位移波形振动,结晶器能够准确跟踪给定振动位移波形是保证铸坯质量的关键。多流连铸对系统的安全性和可靠性有较高的要求,并且结晶器振动位移系统中的不确定性干扰等因素会影响振动位移的跟踪效果。为提高多流连铸生产过程中系统整体的安全性与可靠性,以及保证每一连铸流中结晶器振
本文通过兔胚胎毒性实验和玻璃化冷冻的研究,确定对胚胎无毒性或毒性小的冷冻保护剂的种类、最佳浓度、胚胎发育阶段,为玻璃化冷冻方法在兔胚胎冷冻保存中的应用提供理论基础。 1.用海藻糖和蔗糖处理的兔早期囊胚存活率分别为93.8%和70.0%。经统计分析,兔早期囊胚存活率海藻糖组显著高于蔗糖组(P<0.05)。 2.0.5M海藻糖溶液做基础液,分别用OM(对照组)、2.0M、2.5M、3.0M
在计算机视觉领域,视频人体行为识别一直是个热门的研究方向。视频人体行为识别不同于静态图像的人体行为识别,输入网络的不是单帧图像而是连续多帧序列,图像绪论蕴含了更多的时序信息,是未来行为识别的主流研究方向。传统的人体行为识别方法由于其耗时长,特征提取复杂等原因,难以在实际应用中有重大突破。随着计算机软硬件的高速发展,2006年提出来的深度学习理论得以实践,视频人体行为识别再次被重视起来。如今,视频人
在燃料储藏、化学液位测量等领域,液位传感器和温度传感器对于高精度液位和温度的实时监测具有非常重要的意义。当前,在测量这两个物理参数时,大多是采用电学式传感器。传统的电学传感器技术比较成熟,其具有成本低廉等优点,但是电学传感器还存在着走线复杂,易受电磁干扰等问题,不适合在易燃易爆场所使用。为此,本文在阅读了大量文献的基础上,提出了一种适用于液体深度和温度检测的光学传感器的解决方案。针对测试的实际工艺
在现代异步电机高性能调速控制中,安装速度传感器是实现转速精确控制的关键。但安装传感器会增加系统成本且在某些场合不宜安装传感器。因此,精度高、调速范围宽、鲁棒性强的异步电机无速度传感器控制策略成为国内外学者的研究热点。但无速度传感器系统存在参数敏感性强,应对电机参数变化、外部干扰能力较弱以及矢量控制中电流谐波造成的转矩脉动的问题,故针对无速度传感器转速辨识中存在的这些问题,本文所做工作如下:首先,异
近几年,伴随港口行业的蓬勃发展,港口吞吐量不断加大,港口码头对装卸干散货的需求也越来越大,而门座式起重机是港口主要干散货装卸工具之一,所以对于门机抓斗的操作控制是提高装卸干散货作业效率和智能化程度的关键。为解决在港口门机抓斗装卸干散货的作业过程中,人眼观察无法精确判断抓斗位置所带来的工作效率低下及安全性的问题,本文提出了基于深度学习的门机抓斗检测算法。主要工作和研究内容如下:(1)设计了一种基于改
人类行为识别一直是计算机技术的重要研究内容,是机器理解人类行为的重要组成部分。但是传统的行为识别算法主要是根据图像序列的RGBD信息进行特征提取的,行为识别算法模型鲁棒性较差、识别精度不高或复杂度过高,本文基于图卷积神经网络和人体骨骼数据,提出了基于图卷积神经网络的人体骨架图的快速行为识别算法。研究内容如下:首先,针对原始的人体骨骼数据分布不均和特征不充分,导致识别精度较低的问题,提出了数据预处理
新能源光伏发电已逐步成为我国发电系统中重要的组成部分,收集光能的关键单元部件光伏板在开放恶劣的风沙、尘土、雨雪的侵蚀下,其表面清洁情况严重影响发电效率和系统正常工作状态。为此,本文设计了可全天候/夜工作的智能清洁光伏板的户外移动机器人控制系统,针对光伏电厂占地面积大、光伏板排布规律的场地特点,通过对户外自主作业机器人的轨迹、姿态的控制,实现智能清洁机器人在光伏电厂中自主工作。首先,本文根据清洁机器
随着人们对生活质量要求的不断提高,良好的生活环境变得至关重要。因此在装修房间时所需要的装修风格和装修材料都要进行慎重选择,不同的材料会带来不同的效果,并且不同材料间如果进行合理组合,会带来意想不到的惊喜。室内装饰时要着重发挥不同材料的质感、线形和颜色的作用,使得装饰效果趋于理想化。那么,在室内装饰时要主动把握材料的选择权,通过选择喜欢的或者合适的材料达到满意的装饰效果,提升生活幸福感和满足感,为自
在我国新能源发展战略的指导下,分布式发电技术、电力电子技术、智能控制技术得以迅速提高。由于分布式发电系统大量并入,负荷区域冗杂度进一步增加,建模工作开始向广义负荷方向发展。如何有效建立广义负荷模型,提高仿真精度,是电力系统研究领域中亟待解决的难题。为此,本文提出了两种基于优化神经网络的广义负荷建模新方法。针对广义负荷随机性且复杂性的问题,提出了一种基于自编码器融合极限学习机(Auto Encode