论文部分内容阅读
显著物体检测是计算机视觉研究领域的经典问题,其目的是预测人类观看图像或视频时首先引起视觉注意的物体位置。应用显著物体检测的方法不仅能够将有限的计算资源分配给兴趣区域,还能够帮助人们更加深入的理解人类视觉注意机制。本文从提高检测的准确性、计算效率和增加立体深度信息等角度对视频中的显著物体检测进行了研究,并实现了显著物体检测方法在视频内容解析问题上的应用。具体来说,本文的主要创新点包括以下四个方面:基于目标备选的视频显著物体检测方法。提出了一种将目标备选(Proposal)作为中层尺度特征进行视频中的显著物体检测方法。提出的方法能够更加直观和准确的实现背景先验的显著性假设,同时很好的解决了以像素或超像素为尺度检测时出现的强调物体边缘和物体检测不完整的现象。方法中以目标备选为新的计算单位,重新定义了基于单幅视频帧和视频序列中的传统显著性特征,并根据不同假设下的显著性特征对目标备选采用投票并排序的策略,得到初始显著图。同时,应用物体边缘优化和保持时间一致性方法进一步精确化检测结果,得到最终显著图。提出的方法在四个公开显著性测试数据集上(Seg Track,Seg Track V2,FBMS和DAVIS)进行了测试,在准确率、召回率和平均绝对误差等评估方法上均优于现有的其它显著物体检测方法。视频中时空显著物体的快速检测方法。提出了一种以运动信息作为主要显著特征的视频中显著物体检测方法,实现了在检测准确性和鲁棒性基础上进一步提高计算效率。在视频中的运行效率达到13fps并接近于实时运算。根据人类视觉注意机制,在观看动态场景时人类更容易注意到运动的物体,因此在视频中底层的运动信息能够提供更具有判别性的显著特征。传统的显著物体检测方法通常以表观特征作为主要显著判别依据,然而在背景杂乱、物体结构复杂或运动物体产生严重模糊和形变的情况下,容易产生检测结果不准确和时间域上不连续的问题。提出的方法将主运动向量作为主要显著特征来计算视频序列中的显著物体位置,将空间域中区域对比度和唯一性等特征作为次要显著特征进行显著物体边缘的优化计算,并将多种显著特征加入多特征计算框架中进行整合,在视频上得到时空一致的显著图。基于学习的立体场景显著物体检测方法。提出了一种使用学习方法中的支持向量机(SVM)对左右双目立体场景中显著物体进行检测的方法。左右双目场景在水平方向上存在微小的差异,通过立体匹配算法可以将这种差异表示为视差图。在立体场景中的显著物体检测问题中,视差图一方面提供了附加的视觉深度信息,有助于进一步提高检测的准确率;另一方面可以根据左右图之间的像素对应关系,更加有效的保持双目检测结果的一致性。提出的方法分别对单目显著特征、立体显著特征和运动特征进行计算,然后利用视差图对应关系找到其补偿特征,并多种特征组合后的立体时空显著特征加入支持向量机的训练和测试过程中,充分利用学习方法中的泛化能力得到最优检测结果。由于现有立体数据集存在图像资源不完整、仅针对特定场景的情况,我们同时也提出了用于公开测试立体场景中的显著物体检测数据集BIT400和立体视频数据集Stereo Seg。在两个数据集上的实验结果显示提出的方法在定性和定量分析上均获得了较好的检测结果。视觉显著物体引导的视频内容解析方法。提出了一种将显著物体检测应用在视频解析中的基于多层深度特征的非参数视频内容解析方法。引入显著性检测能够提高像素稠密匹配的准确率,从而提高视频内容解析的最终解析性能。同时,提出的方法也证明了显著物体检测作为计算机视觉领域中的前置问题,有助于解决更多语义层面的高层视觉问题。方法中通过将显著物体检测结果作为权值加入到稠密匹配中,从而对匹配过程中需要精确匹配的区域起到强调的作用。同时利用不同层次的深层特征反映了场景的多种属性,将多层深度特性应用到解析方法中。其中将带有较多全局和语义信息的全连接层特征用于全局场景检索的计算,将检索场景和测试场景之间的稠密匹配构建为由粗到细的多卷积层特征匹配过程,最后将匹配的结果整合到高阶时空标记转移模型中,得到像素级的视频解析结果。