基于深度学习的无监督单目图像序列深度估计

来源 :东南大学 | 被引量 : 0次 | 上传用户:yysjtu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度估计作为计算机视觉领域的一项基础性研究,在自动驾驶、三维视频、增强现实等领域具有广泛应用。单目深度估计具有价格低廉、适用性广等特点,因此近年来逐步成为研究热点。现阶段,深度学习技术在图像分类、目标检测和语义分割等多个领域都取得了显著进步。借助深度模型强大的特征表达能力,大量学者设计了一系列端到端的单目深度估计算法,并在性能上获得明显的提高。但是,现有的方法仍存在某些问题:这些算法大都遵循静态环境假设,忽略实际场景中的动态目标,这会极大限制算法预测单目深度的能力。针对上述问题,本文以无标签的单目图像序列作为训练数据,研究基于深度学习的无监督单目深度估计算法。本文的主要贡献如下:(1)介绍了深度信息的应用场景和获取方法,梳理了深度估计领域的国内外研究现状和现有的一些经典方法,并对该课题现阶段的研究难点进行总结。(2)针对静态场景,设计了一个多任务深度学习模型,同时对单目深度和相机位姿进行预测。在训练阶段,借助针孔相机模型,采用基于图像几何一致性的损失函数对模型进行监督。(3)针对更加普遍的动态场景,本文在静态模型的基础上,引入无监督的光流预测模块,通过比较预测的全光流与相机刚性运动光流,对移动目标进行检测,减轻运动目标对单目深度估计的影响。另外,不同于主流的基于卷积神经网络的光流预测模型,本文采用生成对抗网络对光流进行预测,该模型能够直接从数据分布中学习,有助于提升光流预测的精度和鲁棒性。(4)为衡量本文提出的多任务学习模型在深度估计、光流估计和相机位姿估计三个领域的性能,实验中将它与各自领域现有的主要算法进行对比。最终,三项任务的实验结果表明:与有监督算法相比,本文的无监督算法取得了相当的结果;同时,在深度估计和位姿估计实验中,与其他无监督算法相比,本文方法的性能更优。此外,本文还设计了一系列的消融实验来验证模型改进的合理性和有效性。
其他文献
情感作为人类生活体验的一个重要基础,影响着人类的认知、感知和日常生活。因此,情感识别作为人机交互中的一个重要的研究领域,近年来越来越受关注和研究。情感可以通过多种方式表达,多模态情感识别已经成为情感识别领域的发展重心。本文以语音和人脸表情等模态为基础,分别研究了语音情感识别和人脸表情识别这两个单一模态的情感识别,并在此基础上采用特征融合和决策融合的方法来实现多模态情感识别。具体的工作如下:(1)首
随着深度学习技术的成熟和普及,以及在海量数据和丰富应用场景的催生下,以卷积神经网络为代表的深度卷积网络开始逐渐替代机器学习时代基于人工提取特征的传统算法。而不断逼近精度极限的代价就是网络深度、尺寸的增长,网络模型越来越趋于臃肿,这对于深度学习的产品落地化是一个严峻的考验。为了更好地在计算资源有限的设备端部署模型且不影响使用,模型压缩的相关研究应运而生。本文主要基于基础算法和具体应用场景,对模型压缩
随着工业4.0的到来,各行业正不断朝着智能化的方向发展,工业机器人作为工业生产中的关键技术之一,成为企业实现产业优化升级的重要部分。自动导引车作为机器人的一种,随着近年来各种导引技术的不断发展,其应用场景变得更加广泛,其中视觉导引由于其巨大的应用潜力成为自动导引技术中的研究热点。本文根据实际应用中在室内场景下的AGV小车行驶需求,提出一种基于场景识别、场景下辅助行驶和行驶中特征物检测的单目视觉AG
唇语识别任务是指通过说话人的嘴唇动作,识别出说话人的语言内容。唇语识别的关键是如何有效提取出能反映嘴唇运动信息的特征向量。深度神经网络可以通过目标函数和反向传播机制更新海量参数的权重,自动学习到与目标任务相关的特征,在唇语识别任务上取得了较好的结果,但是由于唇语识别任务本身的复杂性和嘴唇运动的多样性,唇语识别任务仍然存在很多难点和挑战。针对这些问题,本文提出了一种基于深度学习注意力机制的词语级别的
土木工程结构运营过程中受到环境侵蚀、材料劣化以及各类荷载作用,结构损伤逐渐萌生、发展甚至严重威胁结构的正常使用与承载能力,因而合理有效的结构健康监测与损伤识别技术是结构损伤早发现、性能退化早预警的有效保证。钢筋腐蚀是导致钢筋混凝土结构早期损伤的重要原因之一,如何准确获取钢筋的腐蚀信息包括腐蚀的位置与腐蚀的面积,是进一步评价腐蚀后结构性能的关键。桥梁支座损伤是影响桥梁结构性能的重要因素,有效监测桥梁
传感技术作为信息技术三大支柱之一,早已渗透入社会的方方面面中,像科学研究、食品安全、环境监测、疾病检测、化学化工等方面。但是随着信息社会的进步,各个领域对传感器件的要求提高了,由于电互连引起的“瓶颈效应”使得电子器件很难实现对大容量的信息的高速处理。而光信号的大宽带、超高速、可并行处理等优势可以很好地解决这个问题。目前用光子代替电子来加载信息已经在光通信领域取得了很多的进展,有效提高了处理信息的速
随着物联网技术的不断发展,家居设备的智能化进入了快速发展阶段。然而由于不同商家的产品之间相互独立,不同家居设备的控制方式不尽相同,导致整体家居产品的使用体验不佳。智能化的家居交互方式,能够有效改善智能家居产品的交互体验,其中,基于手势姿态的人机交互技术,相比于传统的遥控设备,更符合人们的日常操作习惯,交互方式更加自然,所以研究智能家居中的人机交互技术,具有重要的现实意义。基于以上现状,本文开展了基
由二维图像提取出图像场景的深度信息是计算机视觉中的经典问题。准确的深度信息能够更好的让我们理解场景的三维结构,了解场景中物体之间的三维关系。深度信息在自动驾驶、AR、VR、机器人导航等具有重要的应用价值。在景深估计算法中,利用传统的双目立体匹配算法存在着精度和实时性不能共存的矛盾,同时也存在着只能适用于特定场景的问题。近年来,随着人工神经网络的发展,尤其是卷积神经网络在图像上的应用使得景深提取取得
目前在生物群体和人类社会中的集群行为得到了深入的研究。然而,动物的协同行为与人类有着显著不同。一般而言,描述动物协同行为的短期网络相比于人类有着较高的阶数,这就需要用高阶网络去刻画。在本文中提出了一种使用集群行为时序数据的方法来确定动物群体的最优极大马尔科夫阶数从而反映交互网络的最大记忆能力。我们的方法结合了时延的因果推断算法以及高阶图模型。一方面因果推断算法基于信息论,通过聚合因果邻居和删除非直
伺服控制是运动控制领域的一个重要分支,伺服系统在现代工农业、国防和医疗等高新科技领域有着十分广泛的应用。伺服系统的典型机械传动结构是由高速伺服电机驱动减速传动机构,再由传动机构带动负载运动,完成能量的转换。一方面,这样的机械传动结构中一定会存在齿隙等非线性环节,齿隙非线性既是一种力矩传动过程中不可缺少的非线性因素,同时也是一种影响系统性能的非常重要的因素;另一方面,由于传动机构的刚度不是理想的无穷