论文部分内容阅读
随着互联网及大数据多媒体的高速发展,如何从海量媒体数据中挖掘用户需求的有用数据已成为信息时代的迫切任务。这不仅涉及信息检索、数据挖掘等中低层技术手段,而且还关系到分析与理解等高层认知模型的构建。其中,图像视频语义分割作为多媒体数据分析与理解的关键步骤,不仅能够获取感兴趣的语义区域,而且能去除噪声数据的干扰,为多媒体的分析与理解提供了精准的数据描述。然而,由于图像视频内容的多义性,使得语义分割受到了巨大的挑战。因此,本文开展了对图像及视频的语义对象分割理论方面的研究。基于自然图像和视频数据场景复杂及目标先验获取困难等问题,本文以语义可挖掘性以及区域可判别性为主要目标,围绕中层语义特征的目标分割及人工交互高层语义的目标分割等问题展开了深入研究。具体的研究内容和创新点包括以下几个方面:第一,研究了基于图像颜色及目标轮廓的中层语义分割问题,针对复杂背景下的区域一致性衡量结合目标轮廓似然提出了一种基于最小生成树的快速非迭代的线性时间超像素分割方法。该方法不仅能提取高精度的超像素,并能生成具有局部视觉感知的中层语义区域。第二,针对特定类别的单目标对象在复杂背景下对象提取困难的问题进行了基于目标窗口的高层语义对象分割研究,考虑了将对象及部件检测作为辅助信息,提出了基于最小生成树的部件组合模型。通过刻画对象局部部件之间的关联性结合分割质量评价以获取完整准确的对象分割。所提出的方法能够在对象检测定位不精确及噪声干扰情况下,依然保持鲁棒的分割性能。第三,针对多个前景对象外观先验获取的难题,进行了基于人工交互的多目标语义分割研究。提出了基于形式概念分析与凸形状先验的交互式多目标分割模型。该方法不需要特定对象外观先验的获取及更新过程,降低了模型的复杂度。引入的形式概念分析及凸形状先验,将传统的多变量标签优化转化为二值优化问题,极大的降低了计算量。该方法提出的非迭代的快速有效的交互式多目标分割,解决了传统方法模型复杂计算量大的问题。第四,针对视频序列运动模糊,场景复杂,光照变化,对象先验获取困难的问题,进行了基于视频复杂度感知特征的语义对象分割研究。提出了基于视频复杂度感知及部件分割传播模型的语义对象分割方法。前者针对视频背景提出了视频复杂度的一系列评价指标,有效捕获了简单背景下的视频帧。后者构建了基于部件的分割及传播模型,克服了由前景背景相似性及噪声引起的干扰问题。该方法解决了传统方法在复杂视频下对象先验获取的难题。第五,针对传统视频标注过程缺乏有效指导的问题,进行了基于视频区域全局一致性感知的语义对象分割研究。引入了全局一致性用于评价区域的标注可能性,同时引入区域采样来逼近样本空间的分割变化,为用户提供最可能是对象的标注区域,同时该区域的标注能够使得分割结果最大程度地改善。该模型解决了复杂视频中,多目标对象有效标注的问题。第六,针对传统分割方法场景单一,目标连续及尺度不变的假设不能适用于长视频序列场景多变,镜头切换和目标尺度变化等问题,进行了基于尺度感知目标检测的语义对象分割研究,提出了基于有向图的变化尺度目标检测模型,解决了长视频中场景变化,镜头切换和目标尺度变化情况下的对象分割问题。