基于深度学习的特征表示和图像分类方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liongliong422
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像理解是指让计算机能够像人类一样分析和理解真实世界中的图像,获取图像中包含的语义信息,完成分类、识别、检测和检索等任务。它是计算机视觉、模式识别和机器学习等领域最基本和最有挑战性的问题,吸引了越来越多研究者的兴趣。与此同时,图像理解技术在很多领域表现出了巨大的应用前景,如智慧城市、移动智能终端、图像管理和检索等。  如何构建图像特征表示和分类模型是解决图像理解问题的关键,很多研究者进行了广泛的研究并提出了一些有效的方法。传统的方法大部分是基于视觉码本模型,该模型很好的利用了人工巧妙设计的图像描述和有效的机器学习模型。但它对图像中层结构和高层语义信息的表示力有限,无法突破“语义鸿沟”。近年来,深度学习的突破性发展为解决这一问题提供了新的思路,并在许多模式识别问题中得到成功应用。本文主要探讨深度学习方法在图像特征表示与分类任务中的具体应用与改进技术。具体来说,首先对各种图像特征表示和分类方法进行综述,主要分析了传统的视觉码本模型和新兴的深度学习方法的优缺点,在此基础上借鉴生物视觉认知的一些特性进行了深入的研究和改进,提出了一些有效的图像特征表示和分类方法。本文的主要成果和贡献包含以下几个方面:  1.提出了一种基于非负稀疏和选择性约束的深度特征学习方法。该方法受一些生物视觉认知的研究成果启发,克服了之前的深度模型缺乏判别力和选择性的问题。所构建的融合非负稀疏和选择性正则的深度反卷积网络可以有效的学习图像的层级结构特征,即从底层边缘到中层几何结构,再到高层语义信息。通过增强特征的非负稀疏性,本方法学习到了更加合理的特征,而通过增强模型选择性,整个网络的判别力得到了提升。大量的实验结果证明了所提出方法的有效性,并在多个常用图像数据库上提高了分类性能。  2.提出了一种物体检测信息指导的深度反卷积特征学习模型,用以克服之前的深度模型缺乏丰富的高层语义指导和缺乏空间位置信息的问题。该方法首先采用非监督学习的方式对反卷积网络进行预训练,其中引入了非负性约束帮助得到更合理的特征。然后提出了一种物体检测信息指导的有监督算法对预训练后的网络进行精调,提升了所学特征的表示力和判别力。大量的实验验证了本文方法对表征图像层级结构特征的有效性,并在多个常用图像数据库上提升了图像分类的性能。  3.提出了一种基于深度外观和空间信息编码的图像表示框架。所提出方法利用了传统的图像表示模型和深度学习模型各自的优势,克服了传统方法中存在的外观信息损失、缺乏空间信息和高层语义指导的问题。首先提出了一种耦合深层独立子空间分析和稀疏受限制玻尔兹曼机的模型,对图像块进行特征学习和编码。然后,基于结构稀疏选择提出了一种自适应空间编码方法,用于学习图像中有判别力的空间信息。最后基于上述模型构建了联合优化的深度学习模型,并通过“非监督预训练/有监督精调”的方式进行模型学习。大量的实验证明了所提出方法可以得到更有效的图像特征,进而提高了图像分类的性能。  4.提出了一种基于深度关键部件学习的场景分类方法。该方法利用“大规模辅助数据预训练/目标任务精调”的方式将深度卷积网络拓展于表征场景部件,并引入了一种联合增强代表性和判别性的学习算法挖掘不同场景下的关键部件。该方法利用深度卷积特征提升了部件描述的鲁棒性,通过联合优化增强了中层部件模型的表示力和判别力。基于关键部件模型构建的图像表示与全局图像特征具有很好的互补性。大量的实验证明了本文的方法可以有效的抓取不同类别场景中多样的关键部件,并在多个常用场景数据库中取得了当前最好的分类性能。
其他文献
该文阐述了实现宽带IP广播中的关键技术和难点如广播方式的选择,平台的选择,视频格式的选择等,以及相应的解决办法.在此基础上,详细介绍了作者参与的"宽带IP广播系统"的设计
随着自动控制、计算机、网络通讯技术的不断发展,控制网络应运而生,形成了结构化集成的新型网络,即现场总线控制系统。而控制器局域网CAN是一种高性价比的现场总线,它是一种
中小企业是中国经济发展的重要力量,研究它的文献层出不穷,但大都是把改制、管理等本应一体的内容割裂开来.该课题针对目前中国中小企业的状况,用系统整体的发展的观点对其成
水下仿生研究主要关注鱼类及鲸豚类高效、高机动的推进方式,为高性能水下航行器的设计和研制提供理论基础及技术支撑,应用前景广阔。本文主要针对仿生系统的机动能力和续航能力
随着汽车保有量的快速增加,行车环境日趋复杂。为了提高车辆主动安全性和可靠性,降低交通事故发生概率,研究和开发车辆碰撞预警系统具有重要的社会意义。本文引入单目视觉,研
该文进行了基于自组织(Self-organization)理论的交通流及其管控研究.第一,对现有交通流理论进行了全面评述,重点指出传统交通流理论-跟弛理论(Car Following Model)和流体
该论文通过开放数据库互连(ODBC)实现了虚拟DSP系统与数据库的互连,可完成虚拟DSP系统与ACCESS数据库系统之间的数据交换,从而实现数据的存储.该论文采用Winsock接口,利用现
随着微电子技术的不断发展,要求集成电路芯片具有更多的I/O数、更小尺寸和更高的性能,面阵列芯片封装技术(BGA、Flip Chip等)能很好地满足这些要求。视觉定位系统就是面阵列
鱼眼相机在机器人导航、场景监控、虚拟现实与三维重建等领域具有广泛的应用。然而,由于特征的自动提取和匹配问题一直没有得到很好的解决,因此这些应用目前仍然停留在手工或人
本文从感应电动机变频调速系统的稳态特性出发,提出了一种变速、恒转矩下使感应电动机的功率因数和效率最优的方法。该方法适用于非线性解耦控制的交流传动系统。然后,采用16位单片机80C196MC和智能功率模块设计系统的硬件电路和控制程序。最后的仿真结果表明,所提方法在保证感应电动机具有良好动态运行特性的同时,能实现节能的效果,高速轻载时效果尤为明显。