论文部分内容阅读
随着计算机技术、通信技术和互联网技术的迅速普及和应用,数字图像的规模呈爆炸式增长。面对数量巨大的图像数据,如何让计算机自动“理解”图像,实现对海量图像资源快速而有效的分类管理成为图像研究领域的一个亟需解决的重要问题。图像场景分类根据给定的一组语义类别对图像数据库进行自动标注,它能够很好地支持基于语义的图像分类与检索,同时也可以为目标识别等更高层次的图像理解提供有效的上下文语义信息。图像场景分类的核心问题是如何消除底层特征和高层语义之间的“语义鸿沟”,而通过提取图像的局部不变特征,采用局部语义概念表示方法是解决上述问题的一个重要研究思路。本文将基于局部语义概念表示的图像场景分类技术作为主要研究对象,在提取图像局部特征的基础上,根据映射方式的不同,分别研究了基于视觉词典模型的局部语义概念表示、基于稀疏编码模型的局部语义概念表示和基于语义主题模型的局部语义概念表示方法,进而结合机器学习方法实现图像场景分类。本文的创新点和主要贡献包括以下五个方面:1.针对视觉词典模型中视觉单词的同义性和歧义性问题,提出了一种基于LSI和软加权的图像场景分类算法。首先,利用潜在语义索引(Latent Semantic Indexing, LSI)技术挖掘不同视觉单词间的内在语义关联,对视觉词典进行降维,构造更紧致的视觉词典;然后,采用软加权方式实现局部特征点到视觉单词之间的映射,将局部特征点按照不同的权重映射到多个与之近邻的视觉单词,并统计视觉单词在图像中的出现频次,构造出视觉词汇分布直方图作为图像的内容表示;最后利用支持向量机(Support Vector Machine, SVM)实现图像场景分类。实验结果表明,基于LSI和软加权的图像场景分类算法能够有效克服视觉单词的同义性和歧义性问题,进而改善场景分类性能。2.针对场景的类内差异性问题,提出了一种基于E2LSH-MKL的图像场景分类算法。首先,将精确位置敏感哈希(Exact Euclidean Locality Sensitive Hashing, E2LSH)算法用于聚类,构造视觉词典并生成基于E2LSH的视觉词汇分布直方图作为图像的内容表示;然后,将E2LSH哈希算法与非线性多核学习(Multiple Kernel Learning, MKL)方法相结合,构造非线性非平稳的多核分类器E2LSH-MKL; E2LSH-MKL先利用Hadamard内积实现对不同核函数的非线性加权,以充分利用不同核函数之间交互得到的信息;再利用E2LSH哈希算法将原始图像集聚类为若干图像子集,并根据不同核函数对各图像子集的相对贡献大小赋予各自不同的核权重,从而实现多核的非平稳加权以提高分类器性能;最后,结合图像的基于E2LSH的视觉词汇分布直方图表示和E2LSH-MKL分类器实现场景分类。实验结果表明,基于E2LSH-MKL的图像场景分类算法优于现有的几种多核学习方法,对于解决场景的类内差异性问题是有效的。3.针对稀疏编码模型中图像的空间信息丢失及稀疏表示向量判别性弱的问题,提出了一种基于Fisher别稀疏编码的图像场景分类算法。首先,构建局部特征点的非负稀疏局部线性编码,利用近邻视觉词汇重构局部特征点,以有效利用图像的空间信息;然后,在非负稀疏局部线性编码的基础上,加入Fisher判别约束准则,构造基于Fisher判别约束的非负稀疏局部线性编码模型,以获得图像的判别稀疏向量表示,从而提高图像稀疏表示向量的判别性,使得相同类别图像的稀疏表示系数距离更近,而不同类别图像的稀疏表示系数距离更远,增强稀疏系数的空间可分性,提高图像稀疏表示的分类能力;最后,结合SVM分类器实现场景分类。实验结果表明,基于Fisher判别稀疏编码的图像场景分类算法在利用图像空间信息的同时着眼于寻找图像的判别稀疏向量表示,分类性能优于现有的几种稀疏编码方法,因此更有利于场景分类任务。4.针对概率潜在语义分析(probabilistic Latent Semantic Analysis, pLSA)模型中主题数的确定问题,提出了一种基于密度的最优pLSA模型主题数选择算法,该算法根据主题之间相似度最小时模型最优的理论,采用基于密度的迭代算法自适应地寻找pLSA模型的最优主题数。实验结果表明,基于密度的最优pLSA模型主题数选择算法可以在不需要人工干预的情况下,用相对少的迭代,自动找到最优的主题结构。5.为有效利用图像的多尺度信息和上下文语义信息,提出了一种基于多尺度上下文语义信息的图像场景分类算法。首先,对图像进行多尺度分解,从图像的多个尺度中提取不同粒度的视觉信息;其次,利用基于密度的自适应选择算法确定最优pLSA模型主题结构;然后,利用pLSA模型分析图像块之间的语义共生概率,并结合Markov随机场(Markov Random Field, MRF)共同挖掘图像块的上下文语义共生信息;最后,加权连接不同尺度上的图像特征构建图像的多尺度直方图表示,进而结合SVM分类器实现图像场景分类。实验结果表明,该算法能够有效利用图像的多尺度信息和上下文语义信息,从而提高场景分类性能。