【摘 要】
:
作为图像理解和计算机视觉的基石,目标检测是解决图像分割、场景理解、目标追踪等任务的基础。现在目标检测算法种类繁多,根据是否包含区域建议网络可以分为两阶段目标检测算法和单阶段目标检测算法。根据是否具有锚框又分为基于锚框的目标检测算法和无锚目标检测算法。虽然现在的目标检测算法在精度和速度上都取得极大提升,但是由于视角的多样性,多尺度变化,遮挡和光照强度等复杂场景的影响,以及模型的泛化能力不足等问题使得
论文部分内容阅读
作为图像理解和计算机视觉的基石,目标检测是解决图像分割、场景理解、目标追踪等任务的基础。现在目标检测算法种类繁多,根据是否包含区域建议网络可以分为两阶段目标检测算法和单阶段目标检测算法。根据是否具有锚框又分为基于锚框的目标检测算法和无锚目标检测算法。虽然现在的目标检测算法在精度和速度上都取得极大提升,但是由于视角的多样性,多尺度变化,遮挡和光照强度等复杂场景的影响,以及模型的泛化能力不足等问题使得目标检测依然是一个具有挑战性的任务。针对以上问题,本文主要从构建更加优秀的特征金字塔网络以及避免使用锚框这两方面进行了深入研究,主要的研究内容如下:(1)由于基于锚框的目标检测算法的本质都是利用滑动窗口进行密集预测,庞大的解空间虽然可以获得高召回率,但是这容易得到过多的负样本,而且对于存在遮挡的图片来说还会导致由目标中心高度重合而带来的语义模糊性问题。因此本文提出了一种将双向特征金字塔网络(Bidirectional Feature Pyramid Network,Bi FPN)与Faster RCNN相结合的目标检测算法。Bi FPN不仅可以缓解目标中心高度重合带来的影响而且还能有效的解决多尺度问题。(2)由于基于锚框的目标检测算法会引入与锚框相关的超参数,而且预定义的锚框会使得模型缺乏泛化能力。此外Bi FPN融合不同输入特征图时没有考虑它们对输出特征图的贡献度的问题。因此本文提出了一种将加权双向特征金字塔网络(Weighted Bidirectional Feature Pyramid Network,WBi FPN)和无锚检测器相结合的目标检测算法。无锚目标检测算法无需引入与预定义锚框相关的超参数,所以它不必花多余的时间去寻找这些超参数的最优解。并且不用为不同的数据集设置不同的锚框,所以它拥有更好的泛化能力。WBi FPN在Bi FPN的基础上引入了注意力机制,使得不同输入特征图对输出特征图的贡献不同,从而可以构建更加优秀的特征金字塔网络来进一步缓解多尺度问题带来的影响。(3)由于基于锚框的检测器在为实例选择特征级别时都是根据实例与每个特征层上所有锚框的联合交集(Intersection over Union,Io U)来确定的,而且对于一个实例来说它只利用到了特征金字塔网络中的一层。而基于无锚框的模型则不存在这种约束,因此本文提出了软选择特征金字塔级别的加权策略将同一实例分配给不同级别的特征层来预测,从而更加充分的利用了特征金字塔网络。除此之外,一个实例对应的特征层中并不是所有特征点都包含有用的语义信息,而且每个特征点包含的信息量也是不同的。所以本文提出了软加权锚点的策略对每个特征点的检测结果进行重新加权。将这两种软加权策略与WBi FPN相结合使得模型的检测精度进一步提升。
其他文献
频繁-高效用项集挖掘作为数据挖掘的一个重要领域,能够帮助用户在数据集中寻找到频繁出现且有着较高效用值的项集。相比于仅关注项集出现的频次或项集的效用,频繁-高效用项集能够满足用户多元的需求。传统算法在求解频繁-高效用项集挖掘问题时,会遇到搜索空间爆炸和参数设计的困难。近期,有学者将频繁-高效用项集挖掘问题定义为一个多目标优化问题,并提出了基于多目标演化的算法来求解此问题。利用多目标演化的方法挖掘频繁
现代社会城市化进程的加快和人均车辆保有率的增长使城市交通管理面临着巨大的压力。随着计算机、物联网技术的快速发展,智能交通系统在城市交通管理和智慧城市建设中发挥着越来越重要的作用。交通流预测是智能交通系统的基础,精准的交通预测对很多应用来说是必不可少的。当前,交通预测仍然十分具有挑战性,主要体现在两方面:一是由于交通网络中蕴含了复杂的时空关联和非线性变化,导致现有模型的预测精度不够理想,尤其是在长期
随着深度学习技术的迅猛发展,深度神经网络已全面应用到图像质量评价中,并且逐渐占据主导地位。深度神经网络可以自动学习出有用的特征,不再需要繁琐的特征工程,并且在图像质量评价任务上取得了超越其他算法的性能,网络性能的强大得益于精心研究和设计的神经网络结构。设计出高性能的神经网络结构通常需要大量的专业知识与反复试验,成本极高,随着网络结构越来越复杂,神经网络结构的设计,也正在从手工设计转型为机器自动设计
随着智能视频监控的不断发展,行人重识别研究受到了工业界和学术界的广泛关注。行人重识别旨在完成不同相机下相同身份的行人图像关联任务。当前,大部分的研究工作主要关注有监督的场景,即给定的训练数据都拥有身份标签信息。然而,这些方法依赖于大量昂贵的标签数据,并且要求训练和测试数据必须来自相同的相机网络或者相同的数据集。当这些行人重识别模型直接的应用于不同的数据集时,性能将会出现严重的下降。这极大的限制了处
移动边缘计算(Mobile Edge Computing,MEC)作为5G可能的关键性技术基础,通过将服务节点下沉到更接近用户的位置,在网络边缘为用户提供计算、通信与存储服务,从而减少处理任务产生的时延和能耗。考虑到无人机灵活、易部署的特点,可以将它作为移动边缘服务器,为终端设备提供有效的通信覆盖。此外,还可以将它作为供能平台,利用无线充电技术为设备提供任务卸载的能量。然而,环境造成的信号阻塞和阴
文本匹配任务旨在从两段文本中挖掘内在的语义特征,预测文本间相关性或者矛盾性。作为自然语言处理领域最重要的任务之一,文本匹配一直是领域内众多研究们关注的焦点任务。受益于其部署易、响应快、模型小、通用性强等特点,在智能问答、搜索引擎以及手机小助手等领域占据核心地位。但该领域仍然存在一些问题,阻碍着文本匹配进一步的发展。为了提高模型研究的准确率,研究者们提出对文本表征进行交互,加强文本之间的联系性。但是
三维人体姿态估计任务旨在从单目或多目视频图像中预测出准确的三维人体姿态。得益于低成本、高效率、易部署等优点,三维人体姿态估计在虚拟现实、智慧医疗、自动驾驶、人机交互等领域有着广泛的应用前景。作为计算机视觉领域的热门研究课题之一,三维人体姿态估计一直受到业内研究者的广泛关注。但该课题依然面临着诸多问题,限制其进一步的发展。虽然研究者们通过引入时序信息以及多视角信息,提高了算法预测的准确度。但是对于复
命名实体识别(Named Entity Recognition,NER)旨在从非结构化文本中提取出人名、地名、机构名或其他专有名词等类型的实体。其作为自然语言处理领域的基础任务之一,在对话问答、机器翻译、信息检索和知识图谱等各种自然语言处理任务中承担着重要的角色,在许多落地应用中具有关键性作用。近年来,命名实体识别技术虽已趋向成熟,但仍然面临许多挑战,尤其是在中文命名实体识别方向中,字词边界模糊、
针对目前推荐算法存在的问题,本文对社交化推荐场景中的推荐方法进行研究,设计了两个基于图神经网络的社交化推荐算法框架,实现提高召回率、优化排序结果的目的。本文的主要研究内容如下:1.基于多图注意力融合的社交化推荐算法。图神经网络技术在社交化推荐领域中有着广泛的应用。然而,随着扩散深度的增加,它往往会导致过度平滑问题,从而抑制其性能。本文提出了一种基于相似性的多关系注意力网络用于社交化推荐场景。提出的
高分辨率高光谱图像同时具有丰富的空间信息以及丰富的光谱信息。因此,高分辨率高光谱图像在目标检测、识别以及跟踪领域有丰富的应用空间。然而,受囿于当前成像设备性能的不足,我们无法直接获取到高分辨率高光谱图像。而是只能退而求其次,在空间上以及光谱上进行一定的退化,转而对同一取景取得一组低分辨率高光谱图像和高分辨率多光谱图像,再通过一定算法的处理,将这一组图像尽可能重建还原成高质量的高分辨率高光谱图像。这