基于无监督学习的单目视频深度估计

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:chengjiangjie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于单目图像或者视频序列的深度估计算法,无需昂贵的深度传感器设备就可以得到场景的深度信息,受到了学术界和工业界日益增长的关注。高精度的深度估计在很多工业场景中具有很强的应用价值,包括机器人感知、导航、规划以及无人驾驶和虚拟现实娱乐领域。现有的基于监督学习的单目深度估计方法,通常利用单一视角的图像数据作为输入,直接预测图像中每个像素对应的深度值,需要大量的深度标注数据作为监督信号,而这类数据通常需要较高的采集成本。因此不适用深度标签的方法是近年的研究趋势,这些方法又称为基于深度学习的无监督估计方法,其基本思路是利用左右视图,结合对极几何与自动编码机的思想求解深度,从而只需要无标注的图像序列数据即可展开训练,并达到十分良好的效果。尽管无监督深度估计算法可以降低对标注数据的依赖,其性能却依然受到场景中动态物体、场景遮挡和稀疏纹理的影响。本文从对帧间动态物体的建模入手,提出一个创新的无监督单目视频深度估计流程,该算法基于领域内通用的无监督训练流程,融合视觉追踪领域内的无监督响应追踪滤波器,以及计算机视觉中的联合上下文注意力机制,来对帧间动态物体进行建模。实验表明,本文的方法在领域内的标准数据集上在多个指标上接近或超越了当前最佳的性能表现,消融实验结果和可视化分析均证明了本文提出的两个模块的有效性。为了证明本文提出的算法的应用价值,本文将提出的单目深度估计算法与三维重建算法进行结合,提出了基于单目视频序列的三维重建系统,为了整套系统的高效运行,本文设计了抽象数据传输层来应对各种可能的网络环境。此外,由于重建出的场景数据规模较大,为了提升渲染性能,本文设计了多层分块内存架构来提升渲染管线中的数据传输速度,实验结果表明整套系统在较大规模的重建场景下可以在60fps的帧率上流畅运行,并且实验结果表明,本文提出的多层分块渲染架构可以显著提升渲染效果,本文还提供了在真实场景下整套系统在头戴式虚拟显示设备中的运行效果,以此表明本文提出的无监督深度估计算法的落地价值。
其他文献
人体动作识别通过分析人体运动数据来判断人体动作的类别,是典型的多分类任务。它是行为分析和理解的重要基础和前提,在人机交互、智能监控、智能运动、医疗保健等领域具有广泛应用,近年来已成为了计算机视觉领域的热门研究方向。根据人体动作的信息载体不同,人体动作识别可以分为视频动作识别和骨架动作识别。前者的信息载体是连续的图像序列,后者则基于光学估计、深度相机、动作捕捉设备或三维姿态估计算法等得到的关节三维坐
目标检测算法通常假设训练数据和测试数据服从相同的特征分布,但该假设在实际场景中很难达到。很多实验已经证明了域自适应方法可以减小域之间的数据分布差异,以获得更好的检测精度。将域自适应方法应用到目标检测网络中来减小域差异,这种方法称为域自适应目标检测算法。使用域自适应目标检测算法可以用于无监督或弱监督目标检测任务,减少数据标注需要的人力物力。本文使用深度域自适应目标检测算法,利用有标注的源域数据和无标
作为大数据时代最有效的信息过滤手段之一,推荐系统得到了学术界和产业界的深入研究和广泛应用。一个完整的推荐系统一般存在3方主要的参与者:用户、物品供应商和推荐系统运营商。传统的面向用户的推荐算法通常难以避免物品流行性偏差问题,这极大损害了推荐系统另一方主要参与者—物品供应商的物品推荐公平性需求。本文同时考虑物品供应商和用户的不同需求,开展面向推荐公平性和准确性的推荐算法研究,主要研究内容有以下三部分
视觉语义理解是计算机视觉中一个具有挑战性的课题。而场景图是图像语义信息的抽象表示,它是以图像中目标为顶点、目标之间的关系为边的图形结构。论文研究图像中目标之间的关系,围绕场景图生成任务,首先检测图像中所有的目标,然后识别它们之间的关系,最后将这些信息进行结构化表示以生成图像的场景图。场景图可以为图像理解提供丰富的语义解释,并且为下游的高级视觉语义任务提供理论与技术支撑,对视觉语义理解有着重大的意义
近年来,辅助生殖技术不断成熟,研究表明囊胚比卵裂期胚胎更加符合妊娠生理,移植一个高质量的囊胚,可以在保证顺利妊娠的同时,有效降低多胎妊娠的可能性,从而避免其并发症威胁母婴健康。因此,精确评估囊胚期胚胎形态学参数尤其重要。本文针对囊胚期胚胎数据稀疏的特点,设计面向数据扩充的图像预处理算法,搭建胚胎主体分割模型和细粒度特征识别模型,完成囊胚期形态学参数特征地快速准确识别,最终实现人性化的可视化特征识别
在我们的日常生活中,随处可见各类物联网设备,如何管理这些设备是物联网大规模应用中的一项重大挑战,解决办法之一是在这些设备上安装定位系统,以便实时了解设备的位置。此外,在物联网传感设备提供的应用中,大部分都是基于位置的服务,如果不知道设备的地理位置,那么传感器的数据将毫无意义。大多数基于位置的应用程序,通常会使用全球定位系统GPS来进行定位。然而,使用GPS带来的能耗非常高,并不适用于物联网中低功耗
随着互联网的发展,网络上出现越来越多的文本,人们迫切需要通过文本关键词快速获取文本的主要内容,以判断文本是否是自己感兴趣的。同时文本关键词提取作为自然语言处理(NLP)领域一项基本研究,其算法的效果直接影响到许多下游任务的效果。因此文本关键词提取算法得到了广泛的关注与研究。基于图的文本关键词提取算法不仅能通过词语之间的关系来衡量词语的重要性而且该类方法为无监督的方法,因此被广泛研究。然而该类方法在
近年来,由于民航乘务人员和旅客需求的不断更新,电子技术在民航客舱环境下的应用也在不断扩大和上升。民航客舱环境下,为了保证应用间通信的实时性和可靠性,对系统提出了非常高的要求。为了满足这样的实时应用程序的需求,对象管理组织通过发表DDS规范,提出了一个以数据为中心的发布/订阅通信模型,并使用这样的模型来进行数据分发。然而,目前国外诸如RTI DDS等应用于航空客舱环境的中间件大多为商用产品,开源产品
动作识别任务拥有着很长的历史,近年来随着深度学习的发展,更是取得了长足的进步。但以往的动作识别任务都是基于RGB数据的,只是最近以微软的Kinect camera为代表的深度传感器的逐渐普及,才出现了基于骨骼点的动作识别方法。3D骨骼点数据相较于RGB数据而言,排除了人体形态、所穿衣着和光照等冗余信息,却纯粹保留了“人体动作”本身的关键信息,这使得基于骨骼点的动作识别任务吸引了越来越多研究者的注意
当前,集成电路不断发展,现场可编程门阵列(Field Programmable Gate Array,FPGA)得到了广泛应用,但传统的密钥存储方法容易遭到攻击,对FPGA的安全认证问题提出了新的挑战。物理不可克隆函数(Physical Unclonable Function,PUF)作为一种有前途的解决方案,能够为FPGA生成安全可靠的物理指纹。环形振荡器(Ring Oscillator,RO)