论文部分内容阅读
大规模三维重建是数字摄影测量和计算机视觉领域的核心问题之一,通过一组具有重叠度的影像来恢复相机拍摄瞬间的位置,并获取场景的三维信息。其中如何在大规模的影像数据中快速准确地获得具有重叠区域的影像,又是三维重建中的关键问题。传统的空中三角测量过程中,必须获取相机的标定参数和规则的航带信息来获取影像之间的相似信息。而在计算机视觉领域,通常利用基于内容的图像检索方法(Content-Based Image Retrieval,CBIR)来获取相似影像,此方法不需要图像之外的任何信息,而且处理过程中检索速度快、人工干预少、自动化程度较高。针对当前手机数据、数码相机数据、互联网数据以及无法或很难获取航带信息的无人机影像和航空影像时,采用基于内容的图像检索方法可以准确、高效的检索出同名影像。因此,有必要研究如何利用计算机视觉中的方法来解决数字摄影测量中大规模三维重建的影像检索问题。基于内容的图像检索方法的基本思想是通过提取图像中的视觉特征来表示图像,然后对大量的视觉特征建立索引,从而快速、准确的检索出相似的视觉特征,最终获得具有相同或相似内容的图像。因此CBIR的主要工作集中在视觉特征的提取以及海量特征的索引构建,其中视觉特征提取主要围绕图像的纹理、色彩、形状和空间几何关系等来展开的,而索引结构主要有树型索引结构和基于哈希的索引结构。在大规模的图像检索背景下,如何快速准确的对数据量庞大、向量维度较高的特征数据进行相似检索成为当前CBIR研究工作中的热点与难点。基于以上内容,本文研究内容包括:1.系统性的总结了基于内容的图像检索方法的基础理论和算法原理,归纳出了基于内容的图像检索方法的流程,并概括了三维重建中影像检索的两大关键问题:一是面对内容丰富的摄影测量影像数据,如何提取出能够准确表达其视觉内容的特征描述子,并对影像的尺度缩放、旋转、平移以及光照等变化保持一定的不变性;二是如何对提取出的海量、高维特征描述子建立索引结构,从而快速准确的获取相似特征,对描述子数据进行分析,不同的索引结构将导致不同的检索结果。2.本文深入研究了SIFT、SURF两种特征算子的原理和实现细节,初步介绍了基于深度学习的LIFT特征算子,分析了三种特征提取算法的优缺点,通过大量试验对比了三种算子在不同影像视觉信息下的稳定性和鲁棒性。其中SIFT特征提取速度较慢,但鲁棒性较高,SURF算子是SIFT算子的改进算法,其提取速度较快,针对部分类型的影像其鲁棒性较高,LIFT算子为最近提出的基于深度学习的特征提取算子,其具有很大的上升空间,是未来研究的一个大方向。3.详细分析并实现了随机KD树、随机投影树、词汇树三种索引结构,其中随机KD树通过建立随机森林来加速海量数据的检索速度,随机投影树通过利用一定的策略,对高维数据进行降维来避免高维数据所引起的“维度灾难”,而词汇树通过建立视觉单词对海量数据建立索引关系,大大加速了数据检索的速度及精度,文中详细比较了三种算法的性能和对海量数据进行检索的性能。4.通过将检索算法和特征提取算法进行结合,快速、准确地实现了大规模三维重建中的影像检索过程:利用SIFT和SURF算法分别对影像进行特征提取,对获得的海量特征描述子构建树型索引结构,然后输入待检索影像的特征算子,在树型结构中检索其相似描述子,最后通过一定的策略反馈到影像上,从而获得和待检索影像具有重叠区域的影像,结果验证了该方法的准确性和实用性。针对不同的树型索引结构,通过改进传统的数据相似度量策略,在一定程度上提高了检索的鲁棒性和精确性。