论文部分内容阅读
图像语义信息提取与分类是计算机视觉领域的关键课题。随着数字媒体应用的不断发展,从复杂的多媒体数据中获取语义信息,实现图像内容的有效理解变得日趋重要。在过去数年中,众多研究工作在视觉特征描述、对象模型构建及强监督学习等核心方面取得了一定进步。然而,由于公认存在的语义鸿沟问题,现有方法依旧在语义模型学习、关联信息分析、弱监督学习及判别性特征构建等关键问题上进展缓慢。针对上述亟待解决的问题,本文开展了图像语义信息提取与分类方法的研究。第一,传统超像素方法难以获取图像局部区域语义内容,以及存在复杂参数调节的缺陷。针对该问题,提出了一种基于判别性稀疏表示的语义超像素提取方法。该方法引入信号稀疏重构模型,转化图像语义超像素的提取为图像分解问题。方法中将基于表示系数的判别性正则化项、稀疏模型中的数据重构项及表示系数稀疏性约束统一到单一目标函数,并实现了联合优化求解。提出方法一方面增强了图像局部区域的语义性。另一方面,也能避免繁琐的算法参数调节过程。该方法在对象语义模型构建方面拓展了现有超像素提取算法。第二,针对单幅图像语义信息匮乏的问题,进一步对图像局部区域语义信息提取方法进行研究,提出了一种利用多幅图像间关联约束的协同语义超像素生成方法。该方法挖掘多幅图像具有一致性的对象共现信息,以引导图像局部语义区域的提取。方法中提出了一种基于图匹配代价及邻接超像素外观相似性的区域融合准则,以通过引入图匹配理论解决图像超像素的匹配问题,最终有效提取图像局部区域语义信息。该方法一方面扩展了现有基于图像局部兴趣点的图匹配模型。另一方面,也为当前图像局部区域语义信息的获取提供了一种新思路。第三,依据上述图像局部区域语义信息的提取方法,进一步研究图像对象区域语义信息的获取问题。针对单一图像语义信息不足的限制,提出基于多幅图像的对象区域语义信息提取方法。该方法利用同类别语义对象具有的外观一致性,引入多幅图像间对象信息的关联约束,以转化语义对象的检测为判别性特征子空间学习及窗口定位问题,最终提高了图像对象区域语义信息的获取能力。此外,现有对象检测算法利用已训练模型,存在仅能识别特定类别对象的局限性。针对该问题,研究了一种基于中高层对象知识及图像底层视觉特征的对象性检测方法。该方法提供了一种获取图像对象区域语义信息的新框架,并能适用于一般类别对象的检测任务。第四,针对基于强监督对象检测方法中,人工标注信息匮乏的问题,文中利用不同类别对象部件几何结构的分享性,研究了一种基于弱标注信息的语义部件学习方法。方法中利用判别性聚类算法,实现了不同对象类别具有分享能力语义部件检测器的挖掘。提出方法无需对象部件强监督信息及能识别不同类别语义对象。该方法增强了对象检测算法的适用性,并为进一步图像的理解提供了更具语义信息的对象区域。第五,依据上述图像局部区域及对象区域语义信息提取方法的研究内容,文中进一步对图像整体语义信息的提取问题进行研究,最终解决图像分类问题。现有基于视觉字典学习的图像分类方法中,由于均一地对待所有样本数据,存在难以获取判别性语义模式的不足。针对该问题,本文提出在特征子空间学习过程中,挖掘代表性视觉样本,以提高图像特征的语义判别性。此外,提出一种基于小波变换的特征空间分解模型,实现了对判别性视觉元素的逐步挖掘,最终能增强图像整体描述的语义性。该字典学习模型提供了一种获取判别性语义模式的新方式。第六,图像整体语义描述在图像分类问题中发挥着重要作用。然而,当前基于视觉字典的图像分类方法未探索字典单词间的关联性,因此削弱了视觉字典对图像语义信息的描述能力。针对该问题,文中首先提出一种判别性类特定字典学习模型,通过引入字典单词的分享特性,建立了各字典单词间的关联。方法中将基于表示系数的一致性约束、系数组稀疏正则化项统一到单一目标函数,并实现了联合优化求解,最终能有效挖掘具有共现能力的字典单词。为进一步探索字典单词间的关联约束,本文提出一种基于过完备字典及紧致性字典学习的优化模型。该模型通过嵌入的选择矩阵,构建了字典单词间的约束关系。最终通过以上模型提取的视觉字典,能增强图像特征的语义判别能力。该方法提供了一种挖掘字典单词间关联性的有效途径。