基于三维模型匹配的单张图像物体深度恢复

来源 :浙江大学 | 被引量 : 0次 | 上传用户:zj770929
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从视频和图片中恢复三维信息是计算机视觉领域里的一个基本问题,有着广泛的应用。例如,高质量的深度信息不仅可以直接用来重建场景的三维结构、辅助机器人导航,而且还能帮助计算机更好地识别和理解图像中的物体和场景。特别是随着机器人、虚拟现实和增强现实等应用的兴起,如何让计算机更好地根据所拍摄的图像或视频去分析和理解三维世界变得越来越重要。由于很多时候,我们只能获取单张图像,因此如何为单帧图像恢复深度具有重要的理论研究意义和应用价值。随着三维模型数据集的快速增长,许多研究人员开始尝试利用这些先验模型来进行单帧图像的物体深度恢复。但是,现有的方法一般要求输入图片与训练集中的数据有较高的匹配度,难以处理输入图片中的物体与模型库中的三维模型差异较大的情况;而且,很多方法要求物体的分割信息作为物体深度恢复的先验信息,这很大程度上限制了算法的应用场景。针对这两个问题,本文提出了一个无需预先分割的单张图像物体自动深度恢复方法。首先,将图片与训练集中的数据进行图片匹配,求得候选集,并根据候选集图片的结构特征进行自适应分块,在此基础上进行分块匹配,将分块匹配的结果作为深度预测的依据,有效解决了输入图片与数据集中的三维模型无法很好匹配的情况。其次,基于分块匹配的结果对物体进行自动分割,实现了高质量的物体自动分割和深度估计。再次,针对通过匹配得到的深度在物体不连续边界区域比较粗糙的情况,提出使用改进的分割结果来进行约束,对空洞区域进行深度补全,并进行双边滤波使得深度平滑化,从而有效提高了深度恢复的质量。一系列的实验结果和与其它方法的对比证明了所提方法的有效性。
其他文献
半监督学习是机器学习的一个重要分支,在近些年互联网爆炸式发展过程中,出现了大量的数据分类需求,半监督学习可以利用有限的已标记数据和大量的未标记数据来解决数据分类的问题
随着校园网络规模的扩大、应用的不断扩展,网络架构日益复杂,迫切需要对校园网络实现实时的监控、及时的预警和综合的分析。网络监测预警系统是了解网络运行状况的有效手段,
在电商化的推动下,脚型三维数据的获取工作在鞋类定做领域占据重要地位。传统的计算机多视觉几何算法对三维脚型进行重建需要满足各种各样的条件,如要求脚上纹理明显(要求数
多媒体互动应用一直以来都深受人们的喜爱,它可以以一种趣味的形式让用户站在一个新颖的角度去体验日常生活中可能出现的事件,甚至是处于想象中的事物。我们开发的多媒体互动
本体映射旨在构建异构本体间的语义桥梁,以实现不同本体间的知识共享和信息交流。但是,随着本体应用的不断发展,本体规模也在不断壮大,当前出现了一类概念数量庞大、相互之间
随着论坛、博客和微博等网络媒体的快速发展,表达人们情感、态度和观点的主观性文本大量出现。文本情感分析,也称意见挖掘,就是对这些主观性信息进行有效地分析和挖掘,并进一
随着数据规模的急速增大,应用种类的极大丰富,个人用户和企业对信息的需求已经远远超过了原有平台的能力。越来越多的应用和平台,不论对企业级还是个人级用户都不堪重负,Hadoop平
特征提取是模式识别中最基本的研究内容之一,可以有效地缓解模式识别领域经常出现的“维数灾难”问题并对识别性能起着重要作用,它在生物特征识别、信息处理、文本分类等领域有
为了解决传统神经网络算法(如BP、RBF算法)中出现的局部极小、收敛速度慢等问题,文献[1]和文献[2]中作者提出了权函数神经网络的概念及其学习算法。权函数神经网络结构简单、
随着传统广播视频和新生网络视频数量的快速增长,如何从浩如烟海的视频中快速有效地检索到用户所需的信息逐渐成为多媒体技术研究领域的重要课题。传统的视频检索方法主要有