论文部分内容阅读
可视信号(包括图像、视频、光场等)因其高维特性以及受光照、背景噪声、尺度变化和非刚性形变等因素的影响,相比传统低维信号(如雷达信号、声音信号等)呈现更复杂的变化和更抽象的含义。针对高维可视信号的认知问题,本文将复杂的研究对象分解为多个相对简单和稳定的视觉单元进行结构化表示,并利用结构化预测的方法探索视觉单元的内在联系并联合建模。从低层视觉认知到高层视觉认知,本文针对样例、物体、场景和配文图像四类视觉对象,从姿态、部件、语义元素和认知概念四个方面对它们进行结构化表示,并通过直推式学习、核方法、多任务学习和概率图模型四种方法进行结构化预测,应用于视频分割、物体识别、场景分类和图像理解任务。 本文介绍了一种直推式多分量视频分割算法,用于在视频序列中分割出预定义的感兴趣物体样例。借鉴图像协同分割的核心思想,本文提出的视频分割方法通过同时最大化帧间前景相似性并最小化帧内前景-背景相似性的方式联合分割多帧视频图像。本文提出的视频分割方法利用有约束的参数化最小割算法从分割空间合理采样分割假设,并设计了一个能量函数从前景相似性、前景-背景差异、边缘强度和视觉显著性四方面评估每个分割假设。最终采用蒙特卡洛逼近方法将分割假设加权组合形成最优前景分割。同时,本文构建了多分量前景模型用来捕捉视频中前景物体的形态变化,对前景物体外观差异巨大的视频具有更强的鲁棒性。为了将视频帧组织成不同的分量,本文设计了一个树结构的图模型,称为时域树。它通过概率聚类将外观相似并且时间一致的帧聚合成一个分支,并通过直推式学习训练泛化能力更强的分量模型。 本文提出了一种基于结构核函数和多尺度基于部件模型的物体识别算法。多尺度基于部件的模型在可变形基于部件模型的基础上引入了多尺度部件表示,能够更准确地捕捉物体由于姿态、视角和类内多样性等因素造成的部件尺度变化。本模型将物体的外观特征表示为一个整体视觉特征和多个部件的视觉特征。部件的空间布局在三维空间中表示,包含了二维平面坐标及尺度。其次,本文提出了一种结构核函数,将局部核的强大区分能力与基于部件模型的灵活表达能力相结合,取得更强的物体识别性能。鉴于同一类物体的不同个体应该具有相似的整体外观、独特的局部部件和特定的空间布局,文本提出的结构核函数从整体外观相似度、部件外观相似度和部件空间布局相似度三个方面衡量两个物体的相似度。此外,局部核函数具有灵活的参数配置,可以针对不同类型的物体通过数据驱动的方式进行学习,从而更准确地刻画不同类型物体的视觉特性。 本文设计了一种基于多任务语义码本学习和上下文感知的图像表示的场景分类方法。首先,本文提出的多任务语义码本学习算法用一个独有的语义码本编码特定语义类别的局部特征,从而能够更精准地刻画该语义类别的颜色、形状和纹理特性。不同于传统的单独码本学习方法,本文学习一个紧致的全局码本,而各语义码本均是这个全局码本的一个稀疏子集。一方面,某些码字可以被多个语义类别共享,从而刻画了不同语义类别之间的内在关联。另一方面,某个语义类别也可以包含一些专有的码字,进而体现了该语义类别的独特性。为了学习多个不同类型的语义码本,本文设计了一个多任务码本学习算法。该算法通过交替利用凸优化方法最小化聚类误差,并利用亚模优化方法最优化语义码字分配,从而获得最优的码字和码字分配。基于上述学到的全局码本和语义码本,本文进一步提出了一种上下文感知的图像表示方法,通过上下文量化、语义响应计算和语义聚合三个步骤进行场景表示,取得了更准确的场景分类效果。 本文开发了一种基于文本、物体和场景之间跨域关系的联合图像理解方法。具体来说,本文将文本和物体之间的关系表示成文本中的名词与物体类别之间的匹配概率,并设计了一个实例级有约束的双边匹配问题求解。另一方面,物体或文本与场景之间的关系被表示成物体或名词在不同类型场景中的出现概率。本文提出了一种利用图像级标注信息,包括图像的场景类别和图像中的各类物体的基数,来有效学习上述跨域关系的方法。基于学到的文本、物体和场景之间的关系,本文进一步提出一种图像综合理解模型,用于联合预测图像所属的场景类别、图像中存在的物体类别、各类物体包含的实例基数,以及物体实例的位置。借助现有物体检测及场景分类方法提供的线索,本文建立了一个条件随机场模型用以描述文本、物体和场景的联合概率。