论文部分内容阅读
图像理解是机器视觉领域内一个重要的课题,它是从图像中自动提取有效信息的一门科学,最终的目标是给出图像的解释,这些解释能够说明图像所包含内容的意义。场景分类是图解理解中的一个具体应用。场景分类的定义是如何能够在具有多个场景图像数据集合中,找出具有同一或类似场景特征的场景图像,也就是能够正确的对这些场景图像进行分类,并且能够将具有同一或相似场景的场景图像归为同一类场景中。场景分类能够实现图像库的有效浏览的目标、使得检索/分类变为可能,这主要是因为在多个场景分类的过程中,我们能够将场景图像有效的以一定的方式组织起来,并且在进行场景分类的过程中能够按照一定的合理既定规则来完成这一过程的。在现实情况中,不同的人对已经存在的同一幅图像,也有可能划归到不同的类中,这种情况存在的主观因素非常强,因而单纯的仅仅采取人工分类的方法也是不可取的。场景分类也能够较为方便的提取图像中存在的特定目标物体。基于上面所描述的背景,针对图像检索/分类里存在的具体应用,找到一种图像理解的方法,有效对场景进行解释具有十分重要的意义。本文重点详细介绍了LBP算子的基本思想原理、它的起源、发展演变过程以及获得LBP算子的计算方法,并详细介绍了LBP算子经过提出后,不断的演变与发展,例如多尺度LBP算子、LBP等价模式算子、旋转不变LBP算子、旋转不变等价模式LBP算子,这些算子的原理、计算方法、具有的优势和应用范围也给出了介绍;接着详细介绍了如何获得的LBP直方图,具有的非参数统计特性。详细列举了LBP算子在现阶段广泛的应用领域,以及一些能够结合了LBP算子的方法,以及能够应用到更为广阔的领域。本文的主要工作是研究一种图像理解解释的方法,并将此方法应用到场景分类当中,用其来表示场景的内容。希望能够提出一种能够适用于场景分类实际应用的方法框架,并以此方法框架作为基础,进一步同改进的LBP(Local Binary Pattern)纹理描述算子,甚至可以同图像颜色、形状等图像低层的一些特征能够相互结合,能够提供一种非常“细致”的图像特征描述算子,能够用特征向量来表示场景图像,用以进行场景图像理解。本文提出了一种改进的LBP算子—多尺度自适应LBP算子,将该算子运用到场景图像分类中,提高了场景图像的分类效果。具体来说,本文的研究内容主要包括如下几个方面:提出LBP算子的改进方法;尝试融合其他特征,以便能够进一步提高效果;为了评估实验效果,我们搭配了不同的分类器来进行实验组合,以便找到更好的实验模型。在最后的实验部分,选取了在场景分类领域比较著名的三个数据集,分别是由Olivaand和Torralba提供的8场景类别、15个场景类别数据库(scene_categories)8个运动场景数据集(event_dataset)。在不同的数据集上分别用基于金字塔结构的LBP算法和改进LBP算子来进行实验,实验部分在后面的章节有详细的描述。