基于流边缘检测的像素流估计深度模型研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wangxun416
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机视觉技术的快速发展,新兴的无人驾驶汽车、增强现实、虚拟现实等领域取得了显著的成绩,然而随着工业界的推进,这些领域在精度和效率上有了进一步需求,光流估计和双目立体匹配作为其中两个重要的子任务,依然是目前研究的热点和焦点。目前卷积神经网络已经在图像分类、目标检测、语义分割等视觉任务上取得了巨大突破,很大程度上启发了深度学习在光流估计和双目立体匹配上的应用,然而目前还尚处于起步阶段。  光流估计和双目立体匹配两个任务都是关注于两幅图片稠密像素间的相关性构建,分别计算时域和空域上每个像素点的运动矢量(本文称之为流),本文首次将这两个任务统一定义为像素流估计,其中光流估计关注于时间域上前后两帧图像像素在竖直和水平两个方向上的偏差位移,而立体匹配关注于空间域上左右两幅图像像素在水平方向上的偏差位移。本文发现像素流估计的误差一般发生在流边缘位置,且在多数情况下现有方法所依据的物体边缘可近似代替流边缘的假设并不成立。因此获取精确的流边缘并将其巧妙地引入深度模型来解决流估计的边缘误差显得尤为重要,本文主要工作如下:  1)提出了首个用于流边缘检测的深度学习模型(FBDNet),证明卷积神经网络可以直接从两张输入图中获取运动边缘或深度边缘,并在准确率和效率上均优于传统方法。  2)提出了运动边缘检测和光流估计的多任务深度学习框架(MBANet),利用双流的Decoder网络同时进行两个任务的学习,设计了一个交替迭代的算法来训练网络。实验表明两个任务可以提供互补信息并促进学习,该模型得到了边缘清晰的光流图,且在保证速度的同时大大的增加了精度,性能优于目前的实时模型。  3)提出了深度边缘检测和立体匹配的多阶段深度学习框架(DBANet),第一个阶段进行深度边缘检测,第二阶段将检测到的深度边缘和原始图像对作为输入,进行视差估计,该模型将深度边缘的先验信息传递给视差估计网络,对视差学习起到了指导作用,得到了更加精确的结果,在部分数据集上超过了著名的DispNet。
其他文献
最近几年,数字电视和IPTV的概念逐渐被人们所熟悉。这两项业务都希望为通过用户提供更丰富内容并增强与用户的互动性,从而将人们留在电视机前。随着互联网的发展,电视与电脑之间
在油气勘探开发领域的储层识别研究中,神经网络模式识别技术是一种有效的工具.误差反向传播(BP)神经网络作为目前神经网络中最成熟,应用最广泛的网络模型,具有很强的非线性映射能
IMS(IP Multimedia Subsystem)是由3GPP组织定义的基于IP的新一代电信核心控制网络,采用控制和承载、控制和业务互相分离的机制,网络能力得到很大加强,同时支持固定和移动的多种
随着电信业的迅速发展,用户对新业务的需求不断增加,传统的以电路交换为主的电信体系已经不能适应新业务的需求,因此建设以软交换为核心的下一代网络势在必行。 下一代网络通
可执行程序的反编译是逆向工程中一个重要的研究领域,自高级程序设计语言出现之时,反编译就随之出现了。传统的针对过程式语言的反编译的研究已经颇有建树,而如今随着面向对象概
作业调度是影响面向大数据应用分布式计算的MapReduce框架性能的重要因素,成为近年来的研究热点。相互独立的周期性执行批处理作业是MapReduce环境下的重要作业类型。本文研究
排样是计算机技术和现代经济发展的产物。排样问题的目标就是尽最大可能在材料上放置尽可能多的零件,以减少材料损失。计算机辅助排样是广泛应用的计算机辅助技术之一,具有板
论文主要分三部分。第一部分(第二章),介绍了遗传算法的主要思想,起源,优点,缺点,主要应用框架,主要因素对遗传算法的性能的影响。第二部分(第三章),结合遗传算法的不足,有针对性的对
网络的飞速发展,政务、商务及日常生活的信息化,使得与公钥密码技术相伴的数字签名技术有了广泛的应用前景。数字签名之于数字文件,正如手写签名之于纸质文件,在电子商务和政务中
人们使用互联网方式的改变增加了对组播技术的要求。从视频会议到网络直播,从数据共享到多方游戏,网络带宽的耗费越来越高。以节省网络资源著称的组播技术无疑将发挥越来越重要