论文部分内容阅读
图像的分类和检索一直是计算机视觉、模式识别和机器学习领域的核心课题之一。基于局部特征的图像表示模型是图像分类和检索中最为有效和常用的方法。然而,由于众所周知的语义鸿沟,以及局部特征在表达高级视觉概念方面的局限性,传统的图像表示模型通常存在许多缺陷,包括对细微噪声的敏感性太强、特征编码的空间结构信息缺失、无法捕捉实际问题中的兴趣区域,等等。本文针对这些问题进行了充分的研究,讨论和改进了两种基于局部特征的图像表示模型,即视觉词袋模型和深度卷积神经网络。从实际应用的角度出发,我们抽象出若干重要的科学问题,并且利用创新性的方法解决这些问题。我们将图像表示模型拆分为多个模块,包括特征抽取、特征编码、特征组合以及后处理等,逐一进行深入探索。在模块化研究的基础上,我们开创性地提出一种能够同时处理图像分类和检索任务的模型,完成了两者的统一。最后,我们提出了两个富有挑战性的计算机视觉新问题,并且提供了新颖的初步解决方案。本文的主要创新点包括以下六个方面:?提出一种局部特征强化算法:从图像分类和检索的实际情况出发,论述局部特征的翻转不变的必要性,并且设计了一种简单的解决方案。?提出一种利用空间位置信息强化特征编码的算法:通过构造几何视觉短语和基于短语的池化算法,使得特征编码具有描述局部特征组的能力。?提出两种图像空间匹配模型:针对特定图像分类问题(细粒度分类和场景分类)的特殊特征组合算法,提升了图像表示的质量。?提出两种针对图像检索问题的后处理算法:利用基于图结构和随机游走理论的扩散算法,大幅提升准确率和召回率,并且应用于大规模网络图像搜索。?提出一种统一的图像分类和检索模型:利用强有力的图像表示和鲁棒的距离计算方法,同时处理分类和检索问题,并且在两类任务上都达到先进水平。?提出两个计算机视觉领域的新问题:同时利用前面几章的研究成果以及创新性的框架结构,对新问题进行探索,并且提出了初步的解决方案。本文所提出的方法大多具有很强的推广性,能够很方便地移植到其他应用问题中。我们的研究,为计算机视觉领域的科研人员提供了许多有价值的线索;我们提出的有趣而富有挑战性的新问题,也为我们未来的研究工作奠定了基础。