【摘 要】
:
RGB-D语义分割在RGB输入图像的基础上额外利用深度数据为图像中的每个像素分配对应的语义类别标签,相较于RGB图像语义分割,在应对外观差异和光照变化时性能更加鲁棒,因此在自动驾驶、机器人视觉等领域有较大的应用价值。但如何有效融合两种模态以及如何抑制可能存在的深度噪声依旧是RGB-D语义分割方法需要解决的问题。另一方面,对比学习近年来在无监督表示学习中得到了成功应用。如何将对比学习应用于有监督的多
论文部分内容阅读
RGB-D语义分割在RGB输入图像的基础上额外利用深度数据为图像中的每个像素分配对应的语义类别标签,相较于RGB图像语义分割,在应对外观差异和光照变化时性能更加鲁棒,因此在自动驾驶、机器人视觉等领域有较大的应用价值。但如何有效融合两种模态以及如何抑制可能存在的深度噪声依旧是RGB-D语义分割方法需要解决的问题。另一方面,对比学习近年来在无监督表示学习中得到了成功应用。如何将对比学习应用于有监督的多模态语义分割任务中,利用其挖掘不同模态的单图或多图的上下文,以提升语义分割的性能,是值得研究的问题。本文的研究内容为基于对比学习的RGB-D语义分割。对于RGB和深度模态差异大的问题,针对不同应用场景,分别提出了基于多模态对比学习的深度特权语义分割方法和基于多模态对比学习的RGB-D语义分割方法。同时也探讨了将对比学习应用于现有基于多视图学习的RGB-D语义分割方法的可能性,以缓解深度数据噪声带来的问题。第二章针对深度特权的应用场景,提出了一种基于多模态对比学习的深度特权语义分割方法。在该方法中,用像素级跨模态对比学习挖掘模态间的不变特征,用像素级同模态对比学习挖掘全局上下文信息,在两者的联合作用下有效提升模型的分割精度。与大多数基于多任务的RGB-D语义分割方法相比,所提出的多模态对比学习框架可以应用于现有的单模态语义分割网络中,而无需改变其基本网络。第三章针对RGB-D的应用场景,提出了 一种基于多模态对比学习的RGB-D语义分割方法。考虑到RGB-D的设置,本章方法通过将两种模态特征映射到不同嵌入空间分别进行跨模态对比学习和同模态对比学习以更好地区分模态不变信息并保留模态特定信息,并通过基本的集成策略获得最后的分割结果。与大多数基于多视图的RGB-D语义分割方法相比,在特征提取阶段没有复杂融合模块的前提下,该方法在室内数据集上获得了具有竞争性的分割性能。第四章对于深度噪声问题,提出了一种基于融合模态对比学习的RGB-D语义分割方法。不同于前两章的方法使用对比学习建立起两种模态的联系,本章方法在多视图学习方法的基础上,探讨了对比学习的作用,进一步提升了此类RGB-D语义分割方法的性能。
其他文献
随着视频平台用户生成内容的数量爆发式增长,通过视频内容在视频库中查询相关视频的视频检索算法被广泛应用在版权保护、新闻事件聚合和个性化推荐等场景中。视频检索是一个包含同源复制视频片段检索和事件级视频检索的多维度细粒度的任务,非常具有挑战性。现有的视频检索相关工作缺乏对视频结构信息的提取和对语义信息的理解。同时,多数工作仍然依赖于人工标注的相关视频对,不利于泛化性能的提升。本文提出了全新的视频检索架构
表情是情绪的外在表现形式,在人类日常生活中具有重要作用,相较于语音、语言等能够传递出更多的信息量。表情识别是让人机交互过程更加人性化、智能化的一种方式,能够让机器捕捉到人类的情感信息,完善交流过程。由于不同面部表情之间的特征相似性高,数据集逐渐从实验室走向复杂的真实环境之中,这些都使得面部表情自动识别的理论研究和项目落地过程中充满了难点。同时,流行的深度学习算法在训练阶段对内存和计算机算力有较高的
随着移动互联网技术的飞速发展,支持定位导航服务的应用软件层出不穷。现阶段,应用于室外定位的主流技术GPS已经发展得相当成熟。但是,在复杂的室内环境中,由于受到建筑物或其他各种物体的遮挡,卫星信号会发生严重的衰减,致使GPS技术无法正常使用,因此对高精度室内定位技术的研究显得尤为重要。尽管已经构建了很多与室内定位有关的解决方案,例如,基于RFID、WIFI、Zig Bee等无线技术,但是上述这些室内
<正>本文采用静电喷雾技术,以聚醚砜(PES)为原料,二甲基亚砜(DMSO)为溶剂,通过向静喷溶液中添加亲水性聚合物聚乙烯醇(PVA)、不良溶剂丙酮和乙醇来控制聚醚砜微球的结构。研究表明:亲水性聚合物PVA少量添加时,作为致孔剂使用,制备
神经信号是一种大脑在生理活动时会产生的蕴含大量信息的生理信号。获取神经信号并分析其中的信息,可以帮助探索生命活动、辅助临床诊断、进行疾病监测等。神经探针是一种连接大脑与外部设备的接口。性能良好的神经探针可以在引起尽可能小的损伤的情况下,记录下脑电信号并将其传输到外部设备进行处理。神经探针作为多种脑电极中,植入位置最深、获取信号质量最高的一种,具有非常广阔的应用前景。对于神经探针进行多功能的集成,也
随着计算机视觉与人工智能技术的发展,近年来目标检测等视觉任务的性能得到了很大的提升。相较于目标检测任务包围框级别的感知与语义分割任务逐类别的分割,实例分割任务要求预测每个物体各自的像素级前景掩码,由于其预测结果有着较高的表示复杂度,如何协调细粒度实例表达与模型推理速度两者的关系成为了一大研究难点。另一方面,在视频感知相关的实例分割与跟踪任务上,端到端一体化方案以联合优化的形式同时执行多项子任务,考
随着计算机图形学的迅速发展,真实感渲染技术在生活中扮演越来越重要的角色。真实感渲染,即在计算机上生成和模拟与现实世界的物体尽量逼真一致的图形,这需要很好地还原材质本身的反射特性。生活中大部分物体是颜色和纹理丰富且不透明的材质,这些材质的表观反射特性可以用SVBRDF(Spatially-varying Bidirectional Reflectance Distribution Function)
在新时期发展背景下,着重强调了当前社会发展的关键方向,全面推进了社会发展进程,并且也落实安全稳定工作,这是当前社会发展的关键目标及任务。基于此,本文主要以高校安全管理为基础,阐述当前高校校园安全管理存在的常见问题,并进一步阐述有效开展高校校园安全管理的对策,以此来促进高校实现可持续及健康发展。
视觉同步定位与地图构建(Visual Simultaneous Localization And Mapping,VSLAM)技术是机器人在未知环境中利用图像传感器采集图像信息以进行定位导航、姿态估计和地图绘制的重要技术手段。其中,图像的特征提取作为VSLAM前端视觉里程计中重要环节,其提取特征点的效率和质量将直接影响整个系统的性能和表现。而特征提取算法复杂、计算密集导致其很难能满足嵌入式场景下高
飞机起落架是飞机结构中一个极其重要的部件。飞机着陆瞬间,起落架机轮从静止突然高速运转,其间机轮在水平方向上受力状况变化迅速而复杂;由于机轮水平冲击载荷的变化状况直接关系到机轮刹车装置、缓冲器、摇臂减摆装置等关键部件的可靠性设计,也影响到对起落架强度和刚度、刹车减震效率、功量吸收、机轮起转回弹等性能的研究,因此通过起落架落震试验,确定飞机在不同速度下着陆时起落架机轮的水平冲击载荷,对起落架的强度分析