论文部分内容阅读
图像理解是指让计算机能够像人类一样分析和理解真实世界中的图像,获取图像中包含的语义信息,完成分类、识别、检测和检索等任务。它是计算机视觉、模式识别和机器学习等领域最基本和最有挑战性的问题,吸引了越来越多研究者的兴趣。与此同时,图像理解技术在很多领域表现出了巨大的应用前景,如智慧城市、移动智能终端、图像管理和检索等。 如何构建图像特征表示和分类模型是解决图像理解问题的关键,很多研究者进行了广泛的研究并提出了一些有效的方法。传统的方法大部分是基于视觉码本模型,该模型很好的利用了人工巧妙设计的图像描述和有效的机器学习模型。但它对图像中层结构和高层语义信息的表示力有限,无法突破“语义鸿沟”。近年来,深度学习的突破性发展为解决这一问题提供了新的思路,并在许多模式识别问题中得到成功应用。本文主要探讨深度学习方法在图像特征表示与分类任务中的具体应用与改进技术。具体来说,首先对各种图像特征表示和分类方法进行综述,主要分析了传统的视觉码本模型和新兴的深度学习方法的优缺点,在此基础上借鉴生物视觉认知的一些特性进行了深入的研究和改进,提出了一些有效的图像特征表示和分类方法。本文的主要成果和贡献包含以下几个方面: 1.提出了一种基于非负稀疏和选择性约束的深度特征学习方法。该方法受一些生物视觉认知的研究成果启发,克服了之前的深度模型缺乏判别力和选择性的问题。所构建的融合非负稀疏和选择性正则的深度反卷积网络可以有效的学习图像的层级结构特征,即从底层边缘到中层几何结构,再到高层语义信息。通过增强特征的非负稀疏性,本方法学习到了更加合理的特征,而通过增强模型选择性,整个网络的判别力得到了提升。大量的实验结果证明了所提出方法的有效性,并在多个常用图像数据库上提高了分类性能。 2.提出了一种物体检测信息指导的深度反卷积特征学习模型,用以克服之前的深度模型缺乏丰富的高层语义指导和缺乏空间位置信息的问题。该方法首先采用非监督学习的方式对反卷积网络进行预训练,其中引入了非负性约束帮助得到更合理的特征。然后提出了一种物体检测信息指导的有监督算法对预训练后的网络进行精调,提升了所学特征的表示力和判别力。大量的实验验证了本文方法对表征图像层级结构特征的有效性,并在多个常用图像数据库上提升了图像分类的性能。 3.提出了一种基于深度外观和空间信息编码的图像表示框架。所提出方法利用了传统的图像表示模型和深度学习模型各自的优势,克服了传统方法中存在的外观信息损失、缺乏空间信息和高层语义指导的问题。首先提出了一种耦合深层独立子空间分析和稀疏受限制玻尔兹曼机的模型,对图像块进行特征学习和编码。然后,基于结构稀疏选择提出了一种自适应空间编码方法,用于学习图像中有判别力的空间信息。最后基于上述模型构建了联合优化的深度学习模型,并通过“非监督预训练/有监督精调”的方式进行模型学习。大量的实验证明了所提出方法可以得到更有效的图像特征,进而提高了图像分类的性能。 4.提出了一种基于深度关键部件学习的场景分类方法。该方法利用“大规模辅助数据预训练/目标任务精调”的方式将深度卷积网络拓展于表征场景部件,并引入了一种联合增强代表性和判别性的学习算法挖掘不同场景下的关键部件。该方法利用深度卷积特征提升了部件描述的鲁棒性,通过联合优化增强了中层部件模型的表示力和判别力。基于关键部件模型构建的图像表示与全局图像特征具有很好的互补性。大量的实验证明了本文的方法可以有效的抓取不同类别场景中多样的关键部件,并在多个常用场景数据库中取得了当前最好的分类性能。