论文部分内容阅读
图像分类和标注是计算机视觉、机器学习领域的重要研究内容。它们是自动获取图像语义信息的重要手段,具有广泛的应用,然而也面临着一定的挑战。概率图模型和变分推理是一个新型的机器学习框架,是处理不确定性和复杂性问题的有力工具,被广泛应用于计算机视觉和自然语言处理等领域。主题模型源于文本处理,主题模型的优势在于:一、可对数据降维,二、可使用学习到的主题特征(中层特征)代替原始的底层特征来分类,从而缩小高层类别概念与底层图像特征的距离。本文注意到现有很多图像分类和标注方法应用到真实图像中存在一定的局限性,因而提出了一系列新颖的、用于图像分类和标注的概率主题模型,期望有效提高图像分类和标注的性能。具体创新工作如下:1.提出了一个集成的、有监督的概率主题模型。很多真实的图像数据在形式上或底层特征上表现为类内相似度很小,而类问相似度却很大。一般来说,对于这样复杂的图像,一个规则很难拟合数据和类标之间的关系。我们认为这样的数据应该存在多个分类规则,这就涉及到了集成学习问题,集成学习的优势是组合多个弱分类器构成一个强分类器。目前,基于主题模型的图像分类工作已有很多,它们大都为所有数据构建一个分类规则。因此,本文在主题模型中引入了集成学习的思想,构建了一个可以兼顾两个方法优点的分类模型,并在两个真实数据集上证明了提出模型的合理性。2.提出了一个多视图的、有监督的概率主题模型。在计算机视觉中多视图特征是很容易获得的。对于复杂图像,一般来说一个特征是很难具有足够辨识度的。显然,多种特征可以提供较高的辨识度,辨识度越高,分类也就越容易。现存的主题模型大都关注单视图特征,若想使用多特征信息,只能使用多个特征的联合特征。由于特征所在不同的尺度空间,简单拼接常常是不合理的。为此,本文构建了一个多视图的有监督的概率主题模型,并在两个真实数据集上证明了提出模型的有效性。3.提出了一个用类别信息促进图像标注的概率主题模型。考虑到类标信息对图像标注来说是很有价值的,一旦我们确定了图像类别,标准词汇的范围将会缩小,标注的误差就会减少。并且,在计算机视觉的很多任务中,相比图像的标注信息,类标常常是很容易获得的。因此本文构建了一个用类别信息标注图像的概率主题模型。最后在两个真实数据集上证明了该模型的有效性。4.提出了同时做图像分类和标注的概率主题模型。考虑到不同的类别常常联系着不同的标注词汇,一旦确定了图像的类别,标注词汇的范围将会缩小,标注的误差就会减少。反之亦然,一旦知道了标注信息,类标词的范围也会缩小,即类标和标注之问可相互提供有价值的信息。可见,图像分类和标注是有关联的,不仅可以同时做,而且可以互相促进。受此启发,本文构建了一个新颖的同时做图像分类和标注的概率主题模型。两个真实数据集上的实验结果表明了我们方法的分类性能与相比较方法中的最好性能相差不多,而标注性能有了很大提高,也表明了提出模型的合理性。