论文部分内容阅读
随着数码相机、摄像头以及高速扫描仪等各种图像采集设备的普及,数字图像和视频成为人们生活中的重要信息记录载体。同时,互联网的迅猛发展,也将不计其数的数字图像和视频资源摆在了人们面前。如何高效的组织和管理这些庞大的图像和视频资源以方便人们的各种应用,成为摆在研究者面前的重要问题,基于内容的图像、视频分类技术应运而生。由于视频由大量的图像帧序列组成,因此图像内容分类是视频内容分类的基础,图像内容分类的技术可以直接应用到视频中各帧图像的分类中。
本文主要针对图像内容分类这一课题,基于bag-of-words图像内容表示方法,从码本构建、分类系统设计以及多特征融合等方面展开研究,主要内容包括:
第一、针对各种带有互补性的图像特征,提出并设计实现了一种基于多特征融合的图像内容分类系统。该系统使用两种检测子和五种描述子组成十种局部特征;然后,将这十种局部特征利用bag-of-words模型和空间金字塔划分得到多通道的bag-of-words直方图向量;最后,将多通道的直方图向量通过核函数加以融合来提高分类系统的分类准确率。本文将此系统应用于国际视觉对象分类竞赛The PASCAL Visual Object Classes Challenge(VOC)2009,取得了较好的结果。
第二、针对多类别分类中码本大小、向量维数以及训练图像数目之间的关系问题,本文提出了将类别信息融入码本构建和分类系统设计过程中,并利用分类器投票策略给出图像类别的最终判定结果的方法。码本多样性与码本过大导致向量维数偏高的矛盾在本文方法中得到了很好的解决。此外,在训练每个分类器的时候,负样本数量被控制在正样本数量的三倍以内,有效地避免了正样本淹没在负样本中的情形。最后的实验结果表明,本文的方法可以得到比使用单个全局码本的方法更好的分类性能。
第三、针对正负样本数量差距悬殊的不对称分类问题,本文提出了利用boosting的方式训练级联的码本和分类器的方法。每个节点上使用不同的码本,既保证了每个码本中正样本产生的码字占据一定的比例,又可以捕获负样本千变万化的局部特征。同时,本文方法可以通过调节系统中的两个参数来调节节点的数目以及每个节点分类器的输出结果,以满足不同的分类需求。
第四、针对基本bag-of-words图像表示方法中局部特征之间空间排列信息的丢失问题,本文从分析计算机视觉领域bag-of-words图像内容表示与文本分类领域bag-of-words文档表示的关系出发,提出了一种新的加入位置信息的方法。