论文部分内容阅读
随着互联网的发展和网络流量成本廉价化,基于网络的交互方式从原来的文本逐渐向图像和视频等多媒体倾斜,对视觉图像和视频等数据的理解和分析变得十分迫切。近些年来,物体识别、场景分类、物体检测和图像分割等计算机视觉子问题已经取得了很大的进步,使得计算机已经有足够能力理解单幅图像中的内容和语义信息。不同于图像语义,跨图像语义是只有多幅图像才能表达的语义,例如图像之间共有类别和视频帧表达的动作等。相比于单幅图像理解,对跨图像语义挖掘的研究还不够成熟,效果依然不理想,本研究旨在进一步提升跨图像语义挖掘的准确性和有效性。本文从无时序图像间的语义挖掘出发,首先粗略地探索图像间的共有的类别,进一步快速分割共有类别区域,然后利用深度学习技巧,精确地分割图像间共同出现的前景;紧接着,本文试图利用图像间的时间顺序信息,提炼一系列连续图像帧表达的语义,即理解视频片段表示的动作。本研究的主要创新性贡献体现在以下几个方面:1、提出了一个新的生成概率模型来提高图像间共有类别发现的有效性。该模型建首次将像素级、区域级乃至图像级别的外观特征建模在统一概率模型框架下用于共有类别发现,进一步降低单粒度特征带来的歧义。基于同一类别的像素和区域粒度的外观信息应该一致的观察,类别的求解转化为概率模型隐变量的推理问题。另一方面,为了建模类别之间空间位置的相关性,该模型进一步引入场景上下文先验知识来约束图像像素类别的归属;2、提出了一种新的视觉关系网络来高效地实现图像间共有类别分割。该模型将图像共有类别分割建模为分割片的选取问题,提出使用视觉关系网络组织由底层分割技术获得的大量分割片。基于视觉关系网络,本文进一步提出一种基于主题的随机游走算法能够快速地给分割片打分并计算可能的类别,分数高的对应于那些准确的共有类别分割片。图像分割对应于寻找不重合并分数高的分割片组合;3、提出了一个新的深度全连接条件随机场来实现图像间共有物体分割。此方法将深度神经网络和全连接条件随机场结合在统一框架下,来发现不同图像中共有的前景物体;同时本文提出采用一种新的共现频率图来表示每一幅图像中各个像素共同物体出现的可能性。最终以共现频率图为主要先验,分割出每一幅图像中共同出现的前景物体,实现共有前景物体分割;4、提出了一种新的结构化子序列最大和方法来检测时序图像中的动作。相比于无时序的图像集合,视频帧之间具有极大的相关性和连续性,因此除过表示帧之间共同出现的信息,视频还表达了不一样的语义信息,即动作。为了能够检测到长视频中某一个动作出现的片段,本文提出一种新的结构化子序列来表示动作片段,并提出一种线性的动态规划算法来快速地找到动作出现的位置。本文提出的算法进一步利用神经网络的表达能力,实现系统端到端的学习,使得最终的结构化子序列能挖掘帧之间的关系和反应动作的特性。本文从对无时序图像之间语义的挖掘到对视频的理解,在现有研究的基础上,提出了一系列提升效果和效率的方法,实现了对无时序图像之间共有信息的发现和分割,同时拓展到顺序图像帧之间语义的发掘,即视频中动作的检测。本文提出的创新思路解决了跨图像语义挖掘的部分难题,包括引入上下文信息增加对语义挖掘的约束,利用深度学习增加语义挖掘的准确度等,在各个标准集上得到了一定程度性能的提升。