论文部分内容阅读
随着存储设备、计算机网络和压缩技术的发展,产生了大量的视频数据,如何有效地处理和访问这些数据,成为一个迫切需要解决的问题。视频语义标注可以根据视频所体现的内容按概念对其赋予标号,在此基础上可以实现高效的视频数据处理(如索引、检索和缩略等)。完全使用人工来实现视频标注任务,无疑可以获得相当精确的结果。然而手工标注是一项费时费力的工作,无法在大规模的数据集和概念集上应用。因此,使用机器学习方法来实现这一任务成了必然的选择。本文主要针对基于机器学习的视频标注展开研究,提出了一系列方法,以期能够对非特定领域数据集和概念集,自动地或在尽量少的人工参与情况下,取得与完全手工标注尽可能接近的结果,达到可实际应用的目的。本论文的主要研究工作如下:1.在传统的核密度估计方法中引入未标注数据的信息,提出了半监督核密度估计以及半监督自适应核密度估计,以解决视频标注中训练数据不足的问题。传统的核概率密度估计方法形式简单,便于使用,但是其性能非常依赖于训练样本的数目,当训练样本很少时,会导致其性能降低。而在视频标注中,训练数据不足是经常遇到的问题。通过引入未标注数据,可解决这个问题,改善核概率密度估计方法的性能。另外,木文还分析了所提算法和基于图的半监督学习之间的关系。2.我们提出了一种统一自动视频标注方法。除了训练数据不足的问题.视频标注中还存在着一系列其它的问题,包括维数灾难、距离度量的选择和时间连续性的挖掘。本文通过分析,指出这些问题都可以归结为样本的相似性度量问题或者半监督学习问题,因此这四个问题的应对可以描述为一个多图半监督学习的问题。本文提出一种名为最优多图半监督学习方法,将多张图集成到一个正则化框架中,并且可同时优化这些图的加权系数。3.研究基于多概念多模态主动学习的半自动视频标注。主动学习是一种人机结合的学习途径,其通过学习和样本选择的迭代进行,可选出比随机挑选方法更为有效的训练集。因此使用主动学习来进行半自动视频标注,是解决训练数据不足的一种新途径。然而已有的主动学习算法大多没有考虑视频标注中的多概念和多模态的特点,本文针对这一问题提出了多概念多模态主动学习算法,可同时考虑这两个问题。在主动学习的每一轮中,具有最大期望性能增益的概念被选择,并且选取一批合适的样本来对该概念进行标注。在选取样本的过程中,从每个模态选取的样本数被限定为与该模态的期望性能增益成正比。之后,对每个模态使用基于图的半监督学习算法来标注该概念。通过这种途径,可充分挖掘人工标注的劳动,在尽可能少人工参与的情况下获得更好的标注结果。4.研究对视频镜头大小的标注。目前视频标注中的待标注概念大多集中于场景、事件和物体等,而忽略了镜头大小这种特殊的概念。与一般的概念不同,视频镜头大小概念有其自身的特点,例如其互斥而又具有一定的顺序关系。此外,对于视频镜头大小的标注仅采用常用的底层特征很难取得好的效果,而这些概念与一些中层特征,例如视频帧中物体的数目以及大小等,有较强的联系。因此,本文介绍了一种基于底层特征和中层特征互训练的方法来标注视频镜头大小,此外,针对三种镜头大小概念之间的关系,引入代价函数并实现代价最小的判决。虽然本文所提的算法都是面向视频标注,但是很多方法实质上也能直接应用于其它领域(如半监督核密度估计和多图半监督学习等),在文中也会有具体介绍。视频标注问题,涉及到机器学习、计算机视觉以及认知科学等多个领域,希望本文的研究工作,也能为相关领域提供一些新的思路与方法。