【摘 要】
:
基于深度学习的目标检测模型近年来取得了巨大进步,然而检测图像中的小目标仍是目标检测领域的一大难题。由于小目标具有尺寸小、分辨率低等特点,大多数目标检测模型无法从小目标中获取足够的特征信息。本文将从不同的角度研究与改进基于深度学习的小目标检测模型,并进一步提升小目标检测模型的检测精度。本文的主要研究工作如下:(1)已有的YOLOv5目标检测模型虽然在特征增强网络中引入双向特征金字塔结构提升了检测精度
论文部分内容阅读
基于深度学习的目标检测模型近年来取得了巨大进步,然而检测图像中的小目标仍是目标检测领域的一大难题。由于小目标具有尺寸小、分辨率低等特点,大多数目标检测模型无法从小目标中获取足够的特征信息。本文将从不同的角度研究与改进基于深度学习的小目标检测模型,并进一步提升小目标检测模型的检测精度。本文的主要研究工作如下:(1)已有的YOLOv5目标检测模型虽然在特征增强网络中引入双向特征金字塔结构提升了检测精度,但由于多尺度图像特征之间缺乏有效的信息融合,致使该模型在小目标上的检测效果较差。为此,本文提出一种基于注意力机制和上下文信息的小目标检测模型,通过在特征增强网络中添加注意力机制模块和上下文特征增强模块,学习特征融合后不同特征通道的重要性,增强融合特征中对小目标物体的特征表示,获取不同感受野下的图像特征上下文信息。最终,在小目标检测数据集Vis Drone-Detection上的实验结果表明,该模型能够在基线模型(YOLOv5)的基础上有效提高小目标检测精度。(2)YOLOv5通过融合注意力机制与额外的上下文信息,能够有效提升小目标检测精度,但模型中用于预测物体类别和位置信息的检测头网络存在缺陷,无法考虑到分类与边框回归任务间的差异性,本文提出使用分类与边框回归任务分离的解耦头网络提升模型预测精度。同时,本文将进一步探究不同的边框回归损失函数的优缺点以及边框回归损失函数对小目标检测精度的影响。最终,在小目标检测数据集Vis Drone-Detection上的实验结果表明,使用解耦头网络能够有效提升模型对于小目标的检测精度,同时不同的边框回归损失函数选择策略对于小目标检测精度的提升同样有着重要的意义。
其他文献
随着国家对于历史文化的日益重视,数字化遗产保护已经成为计算机应用领域的热点问题。很多学者将目光聚焦到了古建筑三维场景生成领域,徽派村落作为中国传统建筑的一个重要分支,是古建筑场景的典型代表,影视、游戏和虚拟现实应用内容在徽派风格场景均有充分的需求。另一方面,布局是三维场景生成的前提条件,而传统村落如徽派风格村落由于历史、风俗等复杂因素,其布局一直是传统建筑保护领域的研究热点,难以量化规则。在此背景
随着制造工艺的精进,静态功耗逐渐成为路由器的主要功耗来源之一。同时为了解决片上网络中长距离多跳传输带来的高延迟和高功耗,将无线通信技术加入片上网络芯片中,从而产生了无线片上网络。无线收发器的加入和布置,使得无线片上网络中的流量更加不均衡,普通的路由技术不考虑拥塞信息,加剧了片上网络的拥塞,使得网络很快达到饱和。基于以上发现及考虑,本文针对NoC提出高效的功率门控策略,针对Wi NoC的拥塞问题提出
表情作为人类一种非语言交流方式,相比起语言交流方式,表情更能直接地反映一个人内心真实意图和心理状态。如何使计算机读懂人类表情,进行更加有效的交流成为人机交互领域的一项重要课题。人脸表情的表达是面部肌肉协同运动的结果,是一个动态变化的过程:相较于静态人脸图像,视频序列记录了表情发生的完整过程,对人脸表情的描述更加真实准确。人脸表情很大程度上是通过与表情相关的人脸关键区域的动态变化来完成,如何改善使其
多变量时间序列(Multivariate Time Series,MTS)分类致力于将具有多个变量和时间属性的数据划分到预定义的类别之中,在金融、医疗、人类活动识别等领域发挥着重要作用。但MTS分类任务中存在许多问题,例如MTS中变量之间存在着复杂的关系特征难以捕捉,样本间存在的潜在关系特征易被忽视,标注的MTS数据少等问题。提取关系特征为分类任务提供更多的关键特征具有重要的研究和应用价值。本文围
近年来,动作捕捉技术已经广泛地应用于影视制作、游戏、康复医疗和体育竞技等领域中。专业动作捕捉系统能够获取精确的人体运动数据,但是价格昂贵、需要较大的采集空间和复杂穿戴过程,难以为普通消费者所用。伴随着虚拟现实技术的快速发展,市场上将涌现更多的体感应用和游戏,将对通过价格低廉的动作捕捉设备获取高精度人体姿态信息的方法产生广泛的需求。本文基于可见光相机、Kinect和IMU传感器,提出了多模态多阶段去
伴随着数字化城市管理的快速发展,三维模型的场景应用愈加广泛,因此针对三维模型的快速建模,和对其动态可视化的探索是具有研究意义的。城市路网的模型是一直以来的研究热点,其中,立交结构是路网中结构复杂的部分,探索面向立交结构的路网模型的快速生成是当前研究的难点;在此基础上,提升三维场景的展示效果,研究关于三维模型场景的动态可视化也具有一定的研究价值。本文对于复杂立交结构模型的快速建模、交互编辑和针对三维
近年来,基于视觉的同时定位与建图(Simultaneous Localization and Mapping,SLAM)技术被应用于移动机器人、虚拟现实等领域,通过相机构建出环境地图并感知自身定位,为自主导航、虚拟交互等技术提供前提条件。环境中的动态物体会影响视觉SLAM系统的精度,通过图像分割技术分割出场景中的语义物体,能够为SLAM系统剔除动态物体提供帮助。而在图像分割中容易出现漏分割现象,使
众包技术通过整合互联网上的大众标注来完成计算机难以处理的问题,为工业界和学术界带来了巨大变革,在情感分析、实体解析、文本翻译等领域发挥了重要作用,为机器学习领域提供了高效的标注数据获取手段。然而,由于众包平台的开放性和隐私保护政策,众包标签往往存在噪声且缺乏先验信息。如何从噪声标签中提取正确的标签(称为真值推理)具有重要的研究和应用价值。本文围绕众包真值推理的单选问题开展相关研究,主要内容如下:(
在很多应用程序中,一个非常关键的操作是两个对象或者是多个对象之间相互模型的比较。如果结构化的信息可以用图表示,这种比较就可以转化为图的比较,而图模式匹配技术从本质上而言就是图的比较。给定一个模式图,在数据图中寻找与模式图具有相同或者相似结构的子图,这就是图模式匹配。然而目前图模式匹配的研究多集中于挖掘社交网络中满足特定要求的关系信息,在其他领域的研究相对偏少。同时由于医疗知识图谱中蕴含着大量丰富且
会话问题生成的目标是根据会话历史和文本段落生成延续历史内容的问题。目前针对会话问题生成任务的研究缺少对潜在信息的深入挖掘以及会话历史信息的关注。故本文从有答案意识和无答案意识两种方式对会话问题生成任务展开论述,具体内容如下:(1)有答案意识的会话问题生成任务需要在给定提示语句的情况下,生成与之相关联的问题。本文围绕会话历史设计单词及句子层次的注意力机制模块,提高生成的每一个单词与会话历史之间的关联