论文部分内容阅读
基于文本检索的成熟技术来解决图像检索的问题已经取得了很大成功,像Google和Baidu等商业搜索引擎都已推出了自己的基于文本的图像检索服务。但是遗憾的是,互联网上大规模的数字媒体中仅有非常少量的数据是带有文本标签和文字描述的,而且数据还在快速增加。为了更好的管理和利用这些数据,让这些信息丰富的数据发挥更大的价值,对图像和视频的语义提取成为了近年研究的热点。过去十年,基于统计模型和分类模型提出了多种解决方案,但是都没有达到令人满意的效果。多示例多标签学习(MIML)是近年才出现的一种新的学习框架,由于其对多义性对象的出色表达能力而被运用到图像分类和标注任务中。MIML将样本看作由多个示例组成的示例包,并将其与多个语义标注关联。与传统的学习技术相比,MIML对多语义的复杂物体的表示更自然,而实验也表明MEML在图像场景分类等问题上都比传统的学习技术有更好的效果。MIML中对图像的多示例表示是解决图像多义性表达的关键,其生成方式对标注结果有重要的影响。本文分析比较了基于区域和基于网格的两种图像多示例生成方式,并采用一种新的图像分割算法进行基于区域的多示例生成。图像的多示例表示加大了图像间相似度的计算复杂度,本文采用一种多示例核函数来度量多示例数据的相似性,在不损失其多义性表示的基础上降低了计算复杂度。视频标注作为图像标注的延伸近年得到广泛研究,大多数方法都是将视频看作一组关键帧图像的组合,从而借鉴图像标注的理论方法来解决视频标注的问题,也取得了不错的效果。但是经典的图像标注方法没有时间维度,而时间维度是视频中很重要的信息。视频中一个镜头往往是描述同一个语义,即这个镜头中的所有帧图像的语义概念都是相同的,所以考虑视频的时间维度将会大大提高视频标注的准确度。本文同样将视频看作一组关键帧图像的组合对视频的自动标注进行了研究,并考虑视频中的时间维度,提出一种基于时间一致性的核函数提高视频标注的准确性。另外,为了提高模型的标注准确性和泛化能力,本文还探索了集成学习在图像和视频自动标注的应用。本文主要做了一下几个方面的研究:1)分析现有的基于多示例的图像标注算法,探索比较了两种多示例生成方法对结果的影响。2)提出一种基于MIML框架解决图像标注的问题的方法,我们首先采用一种新的图像分割方式提取图像的多示例表示,并采用多示例核函数度量其相似性,然后提出一个基于多种特征的集成学习算法。3)提出一种基于时间一致性的核函数,充分利用视频中关键帧之间的时间一致性提高视频标注的准确性。为了验证算法的有效性,本文将在Corel5k数据集,IAPR数据集和TRECVID2005视频分别验证图像和视频的标注算法。实验结果表明,我们的算法有效改善了图像和视频标注的准确性。