基于频域原型的小样本语义分割

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:hao8035
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义分割是对图片进行像素级别的分类,进而实现对图片像素级别的理解。传统的语义分割需要利用大量的标注数据来训练网络,才能达到较好的性能。但这些数据的标注会极大地消耗人力物力。另外,传统语义分割的泛化能力不足,无法实现图片分割的真正智能化。因此,近年来基于少量训练数据的小样本语义分割成为研究的热点。小样本语义分割是利用少量的支持集数据对查询集图片中的目标物体进行分割。目前常用的一大类方法是基于原型网络的小样本学习方法。它通过全局平均或者聚类的方法从支持集图片中提取用于代表物体信息的原型,然后将这些原型作为指导信息,指导查询集中目标物体的分割。但这些方法仅仅是从整体或者局部的角度挖掘支持集中物体的信息,忽略了来自查询集中的物体信息,导致分割效果不够理想。为此,我们提出了能够挖掘目标整体和局部信息的频率原型网络,并在此基础上进一步提出了双指导频率原型网络对原有的小样本分割网络加以改进和创新。频率原型网络是基于频域提出的,其主要目的是从全局和局部两个方面充分挖掘物体信息,生成包含全局和局部信息的指导原型,进而更加全面地分割目标物体。本文提出的频率原型网络主要包括三个部分:频率原型产生模块、先验注意力掩码模块和频率原型选择模块。其中,频率原型产生模块通过提出多频域池化的方法,在低频分量中生成代表物体整体信息的全局原型,在中高频分量中生成代表物体细节的局部原型,这些原型统称为频域原型。基于上述产生的频域原型,先验注意力掩码模块产生先验注意力掩码,使网络更准确地定位到目标物体,增强网络的泛化能力。另外,为提高计算效率,频率原型选择模块根据频域原型中包含的物体信息,选择出频域原型中最有代表性的原型,从而降低网络的冗余度。结果表明,我们提出的频率原型网络可以有效提高分割的效果。在PASCAL-5i数据集的1-shot和5-shot设置上,m Io U分别达到62.1%和64.5%,在COCO-20i数据集的1-shot和5-shot设置上,m Io U分别达到39.4%和44.2%。在上述频率原型网络的基础上,本文进一步提出了双指导频率原型网络,以减少同类物体之间的特征差异带来的错误引导信息,提高分割的效率。双指导的主要思想是:在双指导选择模块中,利用来自支持集和查询集的信息,生成支持集引导掩码和查询集引导掩码,进而对频域原型进行选择,得到更加切合查询集的原型,并且生成具有高泛化能力和定位能力的查询集注意力掩码。利用上述的查询集注意力掩码和特征提取器提取的支持集信息,特征泛化模块将泛化的物体信息融入到物体特征中去。最后,多维特征增强解码模块利用对称卷积和非对称卷积构成金字塔解码器,去捕捉带状和多尺度的物体特征。此外,该模块还对查询集注意力掩码进行预分割,并将结果融入到最终的分割头部中,优化最终的分割结果。大量的实验证明了我们提出的双指导频率原型网络的有效性。在PASCAL-5i数据集的1-shot和5-shot设置上,m Io U分别达到69.2%和72.5%,在COCO-20i数据集的1-shot和5-shot设置上,m Io U分别达到48.8%和54.4%,该结果大大超过了基准线网络的结果。
其他文献
随着机器人和传感器技术的高速发展,移动机器人的应用场景逐渐从无人化工厂转移到生活服务业中。其中,SLAM(Simultaneous Localization and Mapping)技术是移动机器人领域的核心技术之一,即同步地进行自身定位与环境地图的构建,结合路径规划技术能够实现移动机器人的自主导航。定位、建图和路径规划均依赖于机器人搭载的外部传感器对周围环境进行实时感知。激光雷达以测量精度高、抗
学位
深度学习相关理论的进一步发展与计算机硬件水平的不断提高,为目标检测领域的发展提供了巨大的推力。通用的目标检测算法对于大,中目标已取得了不错的成果,但对于小目标的检测效果往往不尽人意。与此同时,航拍图像对于城市交通、环境监测等领域的地位越来越重要,而航拍图像中存在着众多的小目标。因此,基于航拍图像的小目标检测是一个十分具有前景的方向。小目标检测的难点在于像素占比小,特征提取困难,同时目前主流的检测算
学位
《中国制造2025》重点领域技术路线中明确提出要实现航空发动机、发电设备等高端装备的实时故障诊断,提高我国工业信息化水平。流体机械装备在航空航天、发电机组、军工领域均有着大量应用,掌握流体机械装备的故障特征,对确保航空航天、发电机机组等领域的安全生产和可靠运行具有重要意义。随着智能制造的发展,传统故障诊断方法在实际应用与发展中具有很大局限,深度学习有着强大的自主学习和模式识别的能力,在工业设备的故
学位
软件结构设计不佳的症状可通过正确的重构步骤解决。多数代码异味检测工具仅输出检测结果,忽略了结合开发者的需求对检测出的异味按照其强度进行排序,从而将判断异味重构优先级的耗时过程留给了开发人员。部分异味排序模型仅关注代码度量等结构特征,而代码间的层次结构及关联关系等语义信息在较多软件工程研究中被证明有效,却在代码异味排序领域少被研究。本文根据类级代码异味特征以及图结构可对对象及其相关关系建模的特性,考
学位
在计算机技术广泛运用和人工智能快速发展的新时代下,越来越多的人开始学习编程。面对大量编程学习者,教育者如何实时跟踪学习者的知识掌握情况,成为亟待解决的关键问题。知识追踪是解决此类问题的有效手段之一,已经成为人工智能+教育领域的研究热点。但现有知识追踪方法普遍存在习题表示缺乏结构化、信息单薄,以及学习者答题预测准确度偏低的问题。本文以编程知识图谱和学习者答题过程为核心,优化习题表示方式和学习者知识状
学位
随着在线自适应学习的快速发展,教学方式逐步走向线上线下融合的模式,大量教学资源实现了平台共享,通过此类方式在线教育学习平台产生了大量的准实时的在线学习记录,从而为知识状态诊断、自适应学习计划制定、动态学习策略生成、学习进度追溯提供了实现基础。知识追踪(Knowledge Tracing,KT)已经发展成为在线教育系统的重要组成部分,作为在线教育系统的一个关键组成部分,知识追踪通过追踪每个学习者的学
学位
随着社会经济的快速发展,各行业对机器视觉的依赖在逐年提升。因其能够提供直观、有效的分析方法,助力实现车辆的自动或辅助驾驶,机器视觉在智能交通系统和智能网联汽车领域获得了极其广泛的应用。在智能网联汽车的研究中,精确的车道识别可以辅助机动车及骑车者的自动跟踪;与机动车道不同,非机动车道往往在车道宽度、标记方式等诸多方面存在较大的差异。为此,本文专门针对多场景自行车道检测问题的复杂性和多态性进行研究,为
学位
代码异味是指任何可能导致代码深层次问题的症状,其通常是由开发人员在程序中的设计缺陷或不良编码习惯而引起。传统代码异味识别方法因缺乏规范的判断标准而带有较强的主观性,并受开发者、开发语言、开发方法等多种因素影响。代码异味强度是异味严重性程度的表征,划分异味的不同强度有助于开发者对不同异味处理进行优先级排序,从而使高危险性代码问题得到优先处理,以减少软件项目的开发与维护成本。目前有关异味强度的研究资料
学位
软件缺陷是软件可靠性降低的重要原因,研究人员通过建立软件缺陷预测模型预测缺陷,进而通过合理分配用于保障软件质量的资源。随着机器学习理论的不断创新,许多研究者利用机器学习算法建立软件缺陷预测模型,然而目前关于软件缺陷预测相关的研究并不能取得理想的效果。主要存在以下四个问题:(1)用于训练和预测的数据集往往存在数据规格不统一和特征冗余问题,增加了模型的复杂度和过拟合风险。(2)对模型的基本分类器研究不
学位
电磁逆散射是根据测量得到的散射数据来重构未知目标的物理参数分布,获得目标的位置、轮廓、结构等信息,具有无接触探测的特点,广泛应用于车站机场安检、雷达目标识别、穿墙成像、医学成像、卫星遥感、地球物理探测等领域。电磁逆散射问题的控制方程具有非线性和不适定性的特征,传统求解方法包括线性近似算法和迭代优化算法,这两种算法都属于非学习类求解方法,其中线性近似算法求解速度较快,但是重构精度不高;迭代优化算法的
学位