基于深度学习的细粒度图像识别研究

来源 :北京邮电大学 | 被引量 : 16次 | 上传用户:petersainty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的图像识别技术更擅长识别不同大类别的物体,而细粒度图像识别的目标是对子类别物体进行识别,比如不同种类的狗或鸟等。由于子类别的图像更为相似,特征分布也更趋稀疏化和局部化,对其进行识别通常需要大量的专业知识,不论对于计算机还是人类都是一个巨大的挑战。深度学习技术由数据驱动,通过多层非线性变换,从海量数据中自动学习特征,无需设计者的先验知识。深层的结构使其具有极强的表达能力和学习能力,可以从众多的局部特征和各种隐含因素学习到有用的特征用于图像识别。然而,现有研究大都依赖大量的训练样本,不能保证在中小数据集上也具有必要的泛化识别能力。根据依赖的人工标注信息的多寡,本文将细粒度识别算法分成强监督识别算法和弱监督识别算法。对于强监督识别,研究了 Part-based R-CNN和PoseNormalized CNN算法,详细介绍了这两种算法的基本原理和训练方式,探讨了它们借助人工标注信息获取局部细粒度特征的方法,并在公开的细粒度图像数据集上对这两种算法进行实验。针对缺乏完整监督信息的场景,本文提出了两种弱监督识别算法。算法1是单神经网络模型,它结合了 Inception的稀疏连接和Resnet的残差连接,通过这两种结构有效增加了网络的宽度和深度,从而提升网络获取细粒度特征的能力。算法2是多神经网络模型,利用Inception-v3和Inception-v4作为特征提取器组合成双线性架构进行细粒度识别。实验结果表明了本文所提出的算法在最小监督信息代价的条件下得到了良好的性能表现,单网络模型识别率与文中介绍的两种强监督识别模型相接近,而多网络模型的识别率则高于这两种强监督识别模型,充分展示了算法对细粒度图像关键特征的抽取描述能力。
其他文献
市民社会作为一个专有名词从古代西方就开始使用,其内涵的广博、深刻性在当今仍有很大的研究价值。在研读大量文献的基础上,运用图表的形式,通过研究国内外著名学者对市民社
目的探讨退变性L4椎体滑脱症手术前、后椎间孔高度改变与术后L4根性神经痛的关系。方法 47例退变性L4椎体滑脱症患者,均行腰椎后路椎弓根钉棒复位固定+椎管减压+椎间植骨融合
东、西方从奴隶制向封建制过渡方式的不同,造成东、西方封建城市巨大差异:一方为大一统的封建政治、经济中心,而另一方则在诸侯、王权、神权的多元政体的争斗缝隙中成长为自治城
未成年人,一直是人们关注的焦点。有这样一群未成年人,他们来自一个并不完美的家庭,他们其中有的没有监护人、有的监护缺失、有的家庭贫困、有的身患重疾??在发展速度越来越
为研究喷射混凝土的动态力学性能,采用74 mm分离式霍普金森压杆(SHPB)装置,对掺入占胶凝材料0%、2%、4%、6%速凝剂的喷射混凝土进行不同养护龄期RMT静态力学试验和冲击试验。
全球金融治理的规则体系已经初步形成,但无论是条约、习惯法或一般法律原则等硬法规则,还是宣言、监管标准等软法规范,都在不断扩张,相继引起国际金融法体系规模上的持续扩大
<正> ①“海豹”突击队员的典型装备,包括MP5冲锋枪、循环呼吸系统、氧气瓶、防护背心、潜水镜、罗盘表、脚蹼等②P226型手枪(美海军称Mk24型) ③钛制“海霸”军刀。为避免钢
本文运用家庭抗逆力理论,采用深入访谈和实地观察调查的研究方法,深入分析分析H省H市YS区的失独家庭的经历。以破坏因子与保护因子对应结构为逻辑出发点,提炼总结出这些失独
业务外包对于高校节约运营成本、提升核心竞争力有着积极的作用。由于我国高校长期形成的独特的管理方式,使得高校在业务外包中存在不少问题,表现为高校与外包商之间的文化价
炒剩饭,为人所不喜,惟花饭除外。花饭是借意,与花酒相似。不过,花饭的花足形似,而花酒的花则是旧时腐朽的美人环伺。
期刊