论文部分内容阅读
图像场景识别是根据场景相似性对图像进行分类。人类在完成场景识别时需要深刻理解图像从而形成高层次的抽象概念,而计算机则是直接面向图像的数字存储形式做出判断。人所理解的“概念相似性”与计算机理解的“数字存储形式相似性”之间的“语义鸿沟”(Semantic Gap)是图像场景识别面临的重要问题之一。提取高层次的特征从而深度挖掘图像中的信息可以有效跨越“语义鸿沟”,提高识别准确率。围绕用于图像场景识别的特征研究,论文的主要研究工作如下:1.提出了一种可高效提取和分类的主题特征(Efficient Topic Feature,E-TF)。目前常见的使用主题模型表达新图像时需要进行主题潜变量推理,因此计算量较大,同时由于主题建模时需要已知标签从而造成标签和特征的耦合。为解决该问题,使用潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型的潜变量及其学习算法构造了一种主题表示,并通过主题模型的潜变量进一步提出了可高效提取和分类的主题特征。该主题特征在所有类别中共享主题空间,提取过程无需类别标签,从而避免了特征与标签的耦合;对图像码字进行简单的线性映射即可完成E-TF的提取,从而大幅减小了计算量。通过类似的实验条件对比了其它三种相似特征,并在15-Scenes数据集上对比了pooling方法,结果表明E-TF可以获得更高的识别准确率。2.提出了低维目标属性(Low Dimensionality Object Bank,LD-OB)特征。目标属性特征是图像的一种高层特征,具有很高的识别准确率,然而其维度过高导致分类运算的计算量过大,现有的降维方法不能兼顾大幅降低维度与提高识别率两个指标。针对该问题,提出一种低维目标属性特征,通过pooling方法简化目标属性特征的模式从而大幅降低了维度,并且采用两个优化策略提高识别准确率。为了验证LD-OB特征的有效性,在三个真实场景数据集上对其进行了评估:事件类UIUC-Sports数据集、自然场景LabelMe数据集、室内室外混合场景15-Scenes数据集。实验结果表明,LD-OB特征不仅可以显著降低目标属性特征的维度,且具有更高的识别准确率。计算复杂度的分析表明该特征可以有效降低分类的时间复杂度。3.提出了一种基于快速稀疏编码(Fast Sparse Coding,F-SC)的中间层特征。稀疏编码的词典学习需要词典更新步骤和码字分配步骤两个凸优化问题解的相互迭代,因此具有很大的计算量。为了对词典学习步骤进行优化,改进了稀疏编码算法的词典学习步骤,并由此建立了一种中间层特征。F-SC算法按照与码字分配无关的规则寻找一系列最具有代表性的样本作为词典分量,使用k-means++算法求取初始化样本,然后使用k-mediods聚类算法搜索有代表性的样本,最终使用搜索到的样本构造词典进行稀疏编码。改进的词典更新步骤独立于稀疏编码的码字分配步骤,避免了两个凸优化问题解的相互迭代,因此可以有效降低词典学习的计算复杂度。使用F-SC算法提取中间层特征,并进行空间金字塔建模,在Caltech-101数据集、15-Scenes数据集和UIUC-Sports数据集上与其它空间金字塔方法展开了对比实验,结果表明基于F-SC算法的中间层特征可以有效提高识别准确率。