轻量级目标检测器研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:a327581460
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,多媒体数据呈现爆炸式增长,给相关智能分析技术带来巨大的挑战,尤其在计算效率方面。目标检测作为计算机视觉的基础任务之一,也是多媒体智能分析中的常用技术。近年来,深度学习技术的引入使目标检测性能得到明显提升,然而现有目标检测器往往因其庞大的计算量消耗,无法在计算资源有限的设备上充分发挥作用,这对智能产业落地造成了巨大的阻碍。另一方面,针对目标检测轻量化的模型压缩技术尚不成熟,仍有不少改进空间。为解决上述问题,提出两种针对目标检测的模型压缩方法:(1)针对背景信息冗余,提出高效的选择性卷积网络(SCN),忽略背景区域特征计算,仅仅选择性地计算有意义的信息。其基本思想是对无关紧要的背景区域信息进行剪枝,有效地降低特征提取中的计算消耗,并且极大地减少压缩后的精度损失。针对此框架,精心设计了一个选择模块来引导网络将计算集中在前景区域,并提出选择卷积代替普通卷积完成高效计算。在没有额外引入分割数据集的情况下,探究了直接监督和间接监督两种方式,充分训练该模型。(2)针对当前蒸馏方法所忽视的多层次特征,提出手把手指导的蒸馏(HGD)框架,提炼网络中各阶段特征的潜在知识,对学生网络施加更全面的蒸馏约束。围绕提出的蒸馏框架,探索了一系列优化策略,包括语义一致性的特征匹配策略、改进的模仿损失函数、有侧重点的微观和宏观权重生成以及重加权的优化算法,这些策略相辅相成,使蒸馏最终达到更好的效果。为了验证有效性,在PASCAL VOC和MS COCO两个经典数据集上进行了大量实验。实验结果表明,选择性卷积网络可以降低SSD和Pelee检测器约1/5到1/3的计算量,精度下降在2%以内。例如在VOC上减少SSD约20%的计算量且精度仅下降0.2%,减少Pelee轻量级检测器33%计算量,精度仅下降1.2%。这些实验验证了该方法的有效性,并且可以进一步压缩轻量级检测器。对于提出的手把手蒸馏方法,进行了大量的对比和消融实验,在相同压缩程度下表现出更好的效果,例如在VOC上压缩精度恢复超过当前最先进方法2.4%,弥补了学生网络与教师网络63%的精度差距。同时,在不同模型和数据集上的泛化实验进一步验证了鲁棒性。
其他文献
<正>我科在1993~1994年收治患儿中,选择3岁以内患支气管肺炎的患儿134例,对这些患儿进行分组护理,一组按肺炎护理常规进行护理,另一组加以胸背部按摩和拍打以辅助治疗,取得
期刊
随着视频大数据的日益积聚、硬件技术的不断突破和计算机视觉技术的迅猛发展,基于视频监控图像和深度学习的行人重识别技术在城市安防和智慧社区等领域中持续发力,应用前景广阔。然而,现实复杂场景下的行人重识别面临着非常严重的域偏差问题,光照、视角、分辨率等外部因素的差异都将对算法的精度产生严重干扰。因此研究行人重识别的域自适应问题对面向实际应用的算法落地有着极为重要的意义。基于对抗生成网络和聚类伪标签两种方
学位
新冠肺炎自2019年末爆发以来,全球每日新增确诊病例已达到数十万例。计算机断层扫描(CT)检查是一种高效敏感的新冠肺炎筛查手段,分割CT图像的新冠病灶是诊断新冠肺炎及监测临床病情的重要步骤。但由于缺乏经验丰富的放射科医师,对CT图像的分割很难大规模进行,急需探索高效的新冠肺炎病灶自动分割方法。常规的卷积神经网络分割模型参数较多,其泛化能力受限于训练样本数量。而常用于医学图像分割的UNet模型在应用
学位
航拍图像中的目标检测是计算机视觉相关研究中的一个热点领域,虽然已有诸多的研究成果,但只有较少的工作对深度学习目标检测模型应用于航拍目标检测任务上存在的问题进行了分析。通过对比自然图像和航拍图像两类图像的特征可知,目前航拍图像目标检测模型精度提升的瓶颈是航拍图像的目标特征存在显著不一致性导致的,图像中检测目标尺寸具有极大的差异性且部分目标绝对和相对像素面积均过小,这些问题导致了现有的检测模型的准确率
学位
遥感图像地物要素提取是遥感测图的关键环节之一,地物要素提取精度的高低直接影响测图成果的好坏。基于深度学习的遥感图像语义分割方法是当前快速提取地物要素的主要方法,居民地作为遥感图像中的典型面状地物要素,对其规则化提取方法进行研究,是探索解决遥感测图中地物要素提取问题的有效途径。为了解决现有语义分割网络获取的遥感图像居民地要素提取结果精度不高、轮廓不准确的问题,提出了多特征增强Deep Labv3+,
学位
随着无人机等便携大规模图像采集设备的普及,基于光学相机的三维重建技术在土木工程建设、数字化智慧城市等领域也得到了普及。使用无人机可以一次性采集大量的图像,其实际覆盖面积可达数十甚至数百平方公里。同时,无人机采集也可以非常方便的调节采集图像的高度、覆盖率、倾角等参数。但是采集的大量图像也产生了计算量庞大和计算时间过长等缺陷。尤其在稀疏重建阶段,传统的增量式稀疏重建需要不断进行捆集调整优化也使得重建时
学位
随着计算机视觉技术的快速发展,目标检测和动作检测等技术都慢慢开始发展并普及应用,因此引申出来一个很重要的技术,那就是人体姿态估计。这个技术的实现能帮助计算机快速理解人类动作和行为,并进一步提高人类的生活质量。在实时监测应用场合,自底向上的多人姿态估计方法更全面且更有优势。传统的自底向上多人姿态估计方法中关键点分组通常独立于关键点检测来解决,从而使其无法端到端训练并且具有次优的性能。针对这个问题,想
学位
髋关节疾病已经成为了近几年来严重影响人们生活的重要疾病之一。全髋关节置换手术是治疗髋关节疾病的重要手段,而髋臼窝和股骨头的中心点位置是否定位准确是全髋关节置换手术成功与否的关键。准确地定位出髋臼窝和股骨头中心点具有重要的临床意义。针对CT图像中的髋臼窝和股骨头中心点定位提出了两种方案。一种方案是基于空间配置网络的深度学习定位算法。针对空间配置网络定位精度不够的问题,通过在网络解码器部分引入残差模块
学位
图像中的物体目标检测和姿态估计一直受到广泛研究,并且在许多领域拥有实际应用,比如机器人操控,人机交互,虚拟现实和增强现实等。目标检测提供了图像中目标的类别和位置信息,姿态估计则提供了图像中目标的旋转和平移信息,可以更准确的获取图像中物体的位置。传统方法存在一些局限性,比如基于特征的方法不能很好的处理弱纹理对象;基于模板的方法不能很好的处理遮挡情况。目前基于深度学习的方法是物体目标检测和姿态估计的主
学位
显著性检测旨在模拟人类视觉系统的注意力机制。神经学研究指出人类视觉系统对同步的视听刺激产生的响应要大于单独的视觉刺激,从神经控制的角度表明声音对人眼的关注存在一定影响。然而,以往的视频显著性检测多侧重于视觉信息方面的研究,而忽略了听觉信息的相关作用。将音频引入视频显著性检测研究,可以更好地模拟真实视频观看场景下人眼对视听信息的处理过程,以及人类视觉系统的响应情况。为了更好地体现视觉关注中听觉的影响
学位