基于CNN的目标区域提取和细粒度图像分类的研究

来源 :南宁师范大学 | 被引量 : 0次 | 上传用户:shadowhigher
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像分类是计算视觉中重要的一部分,从发展之初到现在已经取得巨大的进步。在大类别分类中前五的正确率已经有90%以上,超过了人类现有的水平。在同一大类别内的子类分类的性能已经到达80%以上,但是还没有达到专业的水平,并且这些模型往往只针对特定的数据集,可能不具有广泛性。现阶段的细粒度图像分类算法主要分为两步,第一步是找出目标对象的区域或者目标对象关键部位的区域,第二步将找出的区域用于特征提取作为分类器的输入进行训练。在第一步中现有的细粒度算法使用人工标注的信息来对输入图像进行区域提取,这样的代价往往是昂贵的。在第二步中现有的细粒度图像分类算法使用单一的卷积神经网络进行分类训练,单一的卷积神经网络可能对一些特征的提取不完善。本文主要使用弱监督的区域提取算法提取目标区域,再用CNN提取目标区域的特征进行细粒度分类。本文有两个主要工作:第一个是使用现有网络的一些特性在无人工标记信息的情况下尽可能的降低噪声(噪声对象处于前景或者所占图像面积大于目标对象)对图像分类带来的影响,并在此基础上尽可能的保留住目标对象的重要特征区域,生成裁剪图像。在ImageNet图像集上进行训练的网络模型已经能够很好的区分大类类别,通过对网络pool5层(以VGG16为例)的输出特征进行融合可以看出网络在识别大类之间是通过目标对象关键部(特有部位等)来实现的,基于这一特性可以实现网络的注意力,有助于细粒度图像分类。将网络其他不同尺寸的特征进行融合时发现在无强背景(噪声对象过大或者目标对象过小)时,多尺度特征图融合基本能够完美贴合目标对象的边界;在有强背景的情况下,网络的“注意力”容易被噪声对象(人、树干等)吸引,造成区域提取网络对位置的误判。这就需要对提取的粗糙区域进行二次处理。第二个是使用现有网络进行一些合理的改动和组合,综合考虑一些重要因素,对裁剪图像进行细粒度图像分类。将原始数据集和本文第三章的裁剪数据集同时作为训练数据集,在相同实验条件下对比网络的准确率。使用的网络模型分为经典CNN网络和改进的CNN网络。
其他文献
硼矿是一种用途广泛的化工原料,主要用于生产硼砂、硼酸和硼的各种化合物以及元素硼等,同时也是冶金、建材、机械、电器、化工、轻工、核工业、医药、农业等领域的重要化工原
为了解氧化石墨烯(Grapherie oxide,以下简称GO)对植物组培苗根系的影响,本试验研究了不同浓度GO处理对美国红栌组培苗不定根的形态、分化以及植株生长状况的影响,同时还研究
破产理论是风险理论中的主要研究课题。经典的破产模型是指不考虑利率、投资收益率、通货膨胀、运营费用和保单红利等因素的破产模型。在实际生活中,在我们向保险公司提出索赔
在词汇教学中,比喻性语言往往会被忽视。本文就学生在学习过程中有可能遇到的不同种类的比喻性语言进行研究,并且在实例中讨论比喻性语言对教学的启示。比喻性语言的例子学
随着沿海地区人口密度持续增加,以及生产密集程度升高,造成水域环境容量持续下降。解决发展与保护之间的矛盾,势在必行。沿海增养殖水域是物理、化学、生态相互作用的场所,水
研究了浸种时间、栽培温度、播种密度和采收时间等因素对不同荞麦品种芽苗菜的生长、产量的影响,并且分析了不同处理条件下荞麦品种的发芽率、产量的变化。结果表明,荞麦8号
1903年,瑞典精算师Filip Lundberg提出破产理论的基础—复合泊松风险模型,随后,通过放宽关于索赔间隔时间和索赔额分布等的假设,经典风险模型得到了一系列的推广,在大多数情
如何有效激发员工工作积极性并提高其关联绩效不仅是理论研究的焦点,也是企业管理实践中亟待解决的关键问题。高质量的领导成员交换关系是提升关联绩效的有效途径之一。以安
进入21世纪以来,伴随着物联网的快速发展,作为其关键部件之一的RFID电子标签面临着巨大的市场需求和发展潜力,人们通过卷对卷技术实现了对RFID标签的大规模生产制造。但是用于制造电子标签天线的主流方法却一直停留在蚀刻法、电镀法以及直接印刷法,而这些传统的加工方式都仍然存在着操作复杂、成本昂贵、污染环境等问题。本文结合卷对卷技术,提出了一种基于切削力的新型RFID标签天线制造方案来避免这些问题。本文
面对中国老龄化人口的增加带来居住疗养空间康复型景观设计的不足,以德国哲学家瓜塔里应对环境问题提出的"三重生态学"为理论依据分别从社会生态学、精神生态学和自然生态学