基于知识蒸馏和注意力机制的小样本目标检测方法

来源 :天津大学 | 被引量 : 0次 | 上传用户:liyanhao1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目标检测一直是计算机视觉领域最热门的研究课题之一。传统的目标检测方法大多基于手动设计的特征提取策略和滑动窗口的区域选择策略,鲁棒性较差、时间复杂度较高。近年来,随着具有强大特征提取能力和局部感知能力的卷积神经网络(Convolutional Neural Network,CNN)广泛应用于计算机视觉领域,目标检测算法的精确度和速度都得到了大幅提升。其相关技术已广泛应用于智能交通、工业制造、军事国防和农业生产等关键领域,并已取得令人瞩目的成就。但是,通常情况下,基于CNN的目标检测技术需要大量经人工标注的数据来进行训练,人力物力成本较高,而且在许多图像样本稀少的场景下并不适用,比如一些工业领域中的缺陷检测、医疗领域中疑难杂症的医学图像检测等。这种局限决定了当前基于CNN的目标检测方法在实际应用中存在着难以突破的上限。所以,开展对小样本条件下目标检测算法的研究具有重要的理论价值和实际应用价值。本文对目前已有的小样本学习和小样本目标检测方法进行了归纳和总结;分析了小样本条件下一般的Faster-RCNN检测网络缺乏对小样本目标的定位能力的原因。针对小样本目标检测中的检测框定位性能差的问题,提出使用注意力机制来让网络对小样本数据产生更多的关注,改善定位性能;分析了小样本目标检测网络极易出现过拟合的原因,针对此问题,提出了基于知识蒸馏的迁移学习方法来改善小样本条件下目标检测网络的泛化能力。为了充分验证本文方法的有效性,本文在PASCAL VOC和MS COCO两个公开数据集下,设计了不同backbone和不同小样本规模的多组对比实验。大量实验结果表明,在一定条件下,本文提出的基于知识蒸馏和注意力机制的小样本目标检测方法性能优于已有的方法,具有一定的创新性和先进性。与此同时,本文首次提出使用知识蒸馏来改善小样本条件下的目标检测网络过拟合问题,为小样本目标检测的研究开辟了一条新的道路。
其他文献
随着三维模型检索、3D打印等技术的快速发展,三维模型被广泛应用于互联网、机械加工制造等领域。然而在现实生活中三维模型的获取难度较大,大量的模型数据掌握在设计人员及专业的应用方,这也限制了三维模型的大面积应用。但是,随着视觉采集设备的发展和普及,相对三维模型而言,二维图像更容易获取。因此,如何通过二维图像信息重建或者检索三维模型开始获得越来越多科研人员的关注和精力投入其中。本文着力于解决三维模型特征
学位
点云是雷达扫描所得到的一系列点的坐标的集合。由于点云环境表达精准且包含丰富的三维地理信息,点云目标感知被广泛应用于自动驾驶汽车中准确环境感知任务。近些年来,随着深度学习的不断突破和三维点云数据的可及性,基于神经网络的点云目标感知算法取得了极大发展。利用神经网络从非结构化的点云数据中提取高语义、鲁棒的特征是点云目标感知算法的研究重点。针对现有点云目标感知算法中下采样方法仅利用点云地理信息的问题,本文
学位
<正>我国正在进入老龄化社会,老年人中心血管疾病患者人数也在不断增加,给社会和家庭造成的负担越来越严重[1]。研究证明运动能力的下降会使老年人失能的风险增加,降低老年人的生活质量[2]。找到改善老年人心血管功能和运动能力的手段,对预防老年人心血管疾病发生和改善老年人生活质量具有重要意义。目前,运动干预越来越受到研究人员的重点关注,运动干预已经成为治疗老年人心血管疾病的有效方法[3]。研究发现,
期刊
音频场景识别旨在用计算机分析音频信号所处的环境信息,具有重要的研究意义。音频场景识别方法对输入的声学特征表示进行特征提取,并利用得到的声学特征分类场景类型。随着大数据技术和高性能处理器的发展,基于深度学习的音频场景识别方法通过监督学习策略,解决了传统方法对高维多分类复杂关系建模的难题。然而,现有的方法在实际应用时仍面临算法针对性不强、训练数据量不足、计算复杂度过高和模型可解释性差等问题。因此,本文
学位
雾天采集到的图像存在对比度下降和色彩偏移等问题,降质图像会严重影响计算机视觉系统的处理性能,图像去雾研究具有重要的理论意义和现实意义。本文深入研究基于深度学习的去雾方法,并针对现有端到端去雾网络存在去雾不彻底、细节模糊以及颜色失真等问题提出两种去雾新方法,主要工作如下:针对现有去雾网络对图像特征提取不完整、网络模型泛化能力不足等问题,本文基于卷积神经网络设计了一种基于内容特征和风格特征融合的去雾网
学位
<正>陕西省宝鸡市城市管理执法局以建设法治政府和法治城管为目标,以法治建设反馈问题整改和示范创建为抓手,扎实推进依法行政、文明执法,取得积极成效。2022年,宝鸡市城市管理执法局被宝鸡市司法局评为法治建设优秀单位。深入学习习近平法治思想
期刊
3D视频在2D视频的基础上增加了视点数目和深度数据,其数据量要远大于2D视频,给视频的存储和传输带来了巨大的挑战。因此,如何实现高效的3D视频压缩编码具有重要的理论研究意义和实际应用价值。近年来,随着人工智能技术的发展,深度学习在视频处理领域得到了有效应用,为3D视频压缩编码提供了新的发展思路。为了进一步提高3D视频编码效率,本文借助于深度学习技术,利用3D视频的空域、时域和视点域相关性,开展了基
学位
随着三维数据采集、可视化、硬件设备的技术升级以及互联网行业的快速发展,三维模型已经成为一种主流的多媒体方式。如何在大量数据中检索到相似的三维模型已成为一个至关重要的研究课题。通常解决方法分为两类,分别为基于模型的检索算法与基于视图的检索算法。早期的方法主要是基于模型的算法,需要直接从明确的三维模型中学习拓扑结构、骨架信息等。基于视图的算法以不同的视图表示三维模型,并经过若干卷积层、池化层、全连接层
学位
阿尔茨海默症(Alzheimer’s Disease,AD)是一种不可逆的神经退行性疾病。当AD患者在临床上出现症状时,病情通常已经发展到了晚期,医疗干预无法再对患者产生积极作用。因此利用神经影像技术在病变之前发现患者脑内异常的变化并进行早期干预,对AD的早期防治具有非凡的意义。然而如何有效地利用神经影像技术提高AD诊断的准确率仍然存在较大的问题,为此本文从单模态和多模态两个方面来探讨AD分类中的
学位
<正>2022年,广西壮族自治区防城港市城市管理监督局(以下简称“防城港市城管局”)不断推进城市管理综合执法改革,加大对市容环境卫生、建筑垃圾等领域的监管处罚力度,法治建设工作成效明显。建立健全法治工作推进机制2022年初,防城港市城管局主要负责人在党组会议、党组理论学习中心组组织学习中央全面依法治国工作会议、中央依法治国委员会会议精神和习近平总书记重要讲话、重要指示批示精神,
期刊