【摘 要】
:
随着信息化时代的到来,人们渴望计算机能够智能化地处理生活中遇到的各种问题。作为计算机视觉领域的重要课题之一,目标检测为其他高级视觉任务的实现提供了前提条件。目标检测是一个多任务学习的过程,结合深度学习能够快速地从复杂场景中获取目标物体的类别与位置。近些年来,目标检测技术日益成熟,已经广泛应用于日常生活安全、机器人导航、智能视频监控、交通场景检测及航天航空等领域。本文对基于anchor-free的目
论文部分内容阅读
随着信息化时代的到来,人们渴望计算机能够智能化地处理生活中遇到的各种问题。作为计算机视觉领域的重要课题之一,目标检测为其他高级视觉任务的实现提供了前提条件。目标检测是一个多任务学习的过程,结合深度学习能够快速地从复杂场景中获取目标物体的类别与位置。近些年来,目标检测技术日益成熟,已经广泛应用于日常生活安全、机器人导航、智能视频监控、交通场景检测及航天航空等领域。本文对基于anchor-free的目标检测算法进行了充分调研的基础下,分析了其先进的网络算法FCOS的不足并做出了一些改进,以下是本文的主要工作:(1)特征融合时选择合适的注意力机制,以高层的上下文信息为指导,弥补低层特征信息的不足从而使得网络能够获得最优特征。具体地,将全局池化操作作为辅助模块加到高层次中并同时将其输出用于指导低层,以便选择有判别性的多分辨率特征表达。为了减少参数量,采用1×1卷积和softmax函数的组合以获得全局上下文信息。此外,不再使用批归一化(batchnorm),而是借助于层归一化(layernorm)方便训练损失的优化;(2)使用一种新的回归损失函数GIOU LOSS优化训练以解决IOU相同两框之间不重叠的问题;(3)绝大多数的特征提取网络都依赖于K×K的卷积层与池化层,因而时常会出现感受野不匹配的现象以及判别性特征信息的缺乏。基于此,本文提出了多样性感受野注意力机制。一方面,采用1×K,K×K,K×1的卷积核多样化感受野;另一方面,为了保留空间注意力,将原始特征图通过1×1的卷积后与上述处理得到的特征图逐像素相乘。同时,在设计上又再次利用全局平均池化扩大感受野和增强像素级分类的一致性。本文在PASCAL VOC数据集与MS COCO数据集进行了广泛的验证性实验,并分别取得了81.2%、43.2%的高精度。较于一些流行的anchor-based和anchor-free检测器,本文方法有着极其明显的优势。
其他文献
光在大气中传输时会受到大气中悬浮介质的吸收和散射作用,导致大气散射环境中成像的图像模糊不清、目标物难以辨认。图像去雾技术在目标探测与识别、道路交通监测等军事、民事活动中有着广泛的应用。针对大气散射环境中获取图像严重退化的问题,本文提出了一种基于RGB颜色空间椭球模型的去雾算法,通过在RGB颜色空间建立椭球模型描述雾天图像的像素灰度值的聚集状态,以此估计雾天图像的传输函数并复原目标图像。开展雾天图像
现如今,物联网用户需求的不断增长以及相关应用的发展,给移动设备提出了更高的计算需求、带宽需求、存储需求等。但是受到电池容量以及计算能力的限制,用户不断增长的计算需求和设备有限的资源之间的矛盾成为目前移动物联网架构发展所面临的主要问题。为了解决上述问题,移动边缘计算(Mobile Edge Computing)以及无线携能通信(Simultaneous Wireless Information an
视频作为当今时代承载信息的重要载体,其与人们的生产生活息息相关密不可分,规模也与日俱增。近些年来,随着移动网络与自媒体快速发展,网络上充斥着无穷无尽的视频,这些视频虽然丰富了人们社交生活,但是也确实造成了一定的负担。无论是负载这些视频还是维护,对于媒体信息产业是一种巨大的消耗。此外,在海量的视频中检索与浏览对于用户来说是一件耗时耗力的事情。因此,对视频摘要的技术需求日益加剧。本文利用深度学习的规则
知识表示学习通常用于知识推理等领域,其目标是利用稠密低维的向量表示知识图谱中的实体和关系。在知识图谱自动构建过程中,非结构化文本的复杂性及错误文本的存在,可能致使自动化构建工具不能精确地获取文本中的语义信息,导致实体类型不匹配和实体类型匹配但语义错误等噪音产生。目前较多数的表示学习方法假设知识图谱中的知识是完全正确的,忽略了知识图谱自动构建过程中产生的噪音数据,使实体与关系的向量表示出现误差,严重
在弱光环境下拍摄的图像具有低可见度和低对比度的特点,并且包含严重的噪声。这样的图像不仅给人带来不好的视觉感受,也不利于其他高层计算机视觉任务的研究,如目标追踪、目标检测等。针对这些问题,本文提出了一种基于曝光估计的重建模型来对低照度图像进行增强,同时也将改进的算法应用在单图像去雾任务,本文的工作主要包括以下两点:(1)本文构建了一个基于曝光估计的重建模型用于处理低照度图像增强问题。由于真实的低照度
事件抽取是当前自然语言处理领域的研究热点和难点,目的是从大规模、无结构化的自然语言文本中提取反映客观事实的重要事件信息,在智能问答、自动文本摘要、知识图谱构建等多个方向上具有重要的应用价值。事件抽取建模是事件抽取研究的核心问题,传统的统计学习和端到端的深度学习采用监督学习策略进行事件抽取建模易受标记数据规模小、数据稀疏的困扰,且基于流水线方式建模存在误差传播问题。因此,针对上述事件抽取建模的问题,
随着当今人类生活走向智能化和现代化,软件已经成为了影响生活至关重要的因素。软件缺陷预测(Software defect prediction,SDP)辅助开发和测试人员提前发现项目中潜在的缺陷,并合理分配资源,提高了开发过程的效率并保障了软件的可靠性。传统的软件缺陷预测模型,以专家设计的特定度量元(如:代码行数、对象的耦合程度等)作为软件的特征,分析并预测软件的缺陷情况。一方面,依据专家经验设计出
随着城市中车辆数量的不断增多,交管部门对车辆交通进行精细化管理的要求也日益迫切,而掌握车辆的出行行为特征是能够实行精细化管理的重要前提。车辆活动的规律性是车辆的重要行为特征之一,对提高车辆交通管理水平有重要参考价值。基于城市智能交通卡口设备可以获取到大量的历史行车轨迹数据,研究如何挖掘轨迹数据中潜在的车辆出行模式,对解决城市交通拥堵、确保交通安全畅通具有重大意义。而车辆历史行车轨迹的混乱程度可以刻
视觉振动检测技术因其特有的优势在机械制造、建筑物状态观测、人体健康监测以及地质勘探等检测任务中均有广泛的应用。而在一些复杂环境下,视频振动检测技术中的抗干扰能力有待加强。例如在图像采集的过程中不能保证拍摄相机的绝对静止,在一些带有相机抖动的视频中无法做到对振动信号的准确提取,给研究造成了极大的影响,导致振动频率检测出现误差,影响后续的判断与研究。针对相机运动干扰造成视频振动检测误差的问题,本文做了
边界表示(Boundary Representation,BREP)与构造实体几何表示(Constructive Solid Geometry,CSG)是两种主流实体表示法。目前各种商用CAD系统广泛采用BREP表示法,也具有完善的建模方法,而如蒙特卡罗等科学计算程序则采用CSG表示法,但缺乏高效的建模手段。蒙特卡罗等计算领域希望借用商用CAD的完善建模方法,其关键是实现BREP→CSG转换。目前