零售密集场景的目标检测算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:nannalee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
零售密集场景即超市货架图像,这些图像往往分辨率较高、包含众多商品目标。在这样的密集场景中进行精确目标检测依然是充满挑战的。在其它领域有优异表现的目标检测模型很难在不做改进的情况下直接移植到零售密集场景。因此,本文旨在提升著名的Faster R-CNN模型在零售密集场景的表现,主要工作概括如下:(1)针对标注信息浪费问题,提出多步骤采样的方法。该方法的作用是提高标注信息的利用率从而平衡正负样本。其中主要创新有:改进锚框与标注框的匹配规则、提出动态挖掘的方法以增加正样本数量、使用多步采样提高标注框的利用率。在SKU-110k检测基准上的实验表明:在不降低推理速度的情况下,多步骤采样方法可以提高Faster R-CNN模型的检测能力,AP由51.4%提升到55.0%。(2)针对多尺度目标检测问题,提出局部特征融合的R-CNN。相比于向Faster R-CNN中嵌入特征金字塔网络结构来提升模型对多尺度目标的检测能力,局部特征融合的R-CNN能在简化特征金字塔网络结构的同时提升Faster R-CNN的检测精度。其只使用单特征层预测候选区域,然后根据候选区域从不同尺度的特征图中提取不同的局部特征,最后融合这些特征用以精确检测。与当前的主流算法相比,在相同骨干网络的情况下取得最优的检测结果,AP=55.9%。
其他文献
作为燃料电池(FC)的关键组件,离子交换膜对于其性能有着至关重要的影响。相较于质子交换膜燃料电池(PEMFC),碱性阴离子燃料电池(AEMFCs)现已展现出诸多优势,然而其主要短板依旧存在于离子交换膜。目前,阴离子交换膜(AEM)研究与商业化生产存在的主要问题包括离子电导率较低、碱稳定性较差、合成成本过高等。当前研究人员普遍认可的提升AEMs碱稳定性的方法有选用碱稳定性较高的离子交换基团,减少膜内
学位
随着深度神经网络在视频内容理解与分析任务上取得卓越的效果,基于深度学习的自动视频描述已经广泛的部署在现实应用中。视频自动描述的主要挑战是从大量的帧中捕获关键视觉信息,比如物体、动作和时空关系,并用语法正确的句子进行整体的描述。现有的视频描述方法大多集中于利用注意力机制,捕获全局视频中的关键帧或帧中的关键区域来对视频的语义信息进行建模,而忽略了视频本身的层次结构。视频内在的这种由粗粒度到细粒度的层次
学位
基于语义标签图的图像生成(语义图像生成),是指根据输入的像素级别的标签(语义标签图),去生成与真实图片接近的“伪真实图”。该任务可用于图像编辑、图像渲染等场景。语义图像生成任务一般用生成对抗网络(Generative Adversarial Networks,GAN)来训练,其往往需要大量的参数和计算力。在GAN模型结构与参数量足够大的情况下,其生成图像的质量尚且可观。但是,当应用场景的硬件条件比
学位
手语(Sign Language,SL)作为一种特殊的视觉自然语言,依靠手动特征和非手动特征等多通道信息传达语言信息。近年来,手语翻译(Sign Language Translation,SLT)作为弥合聋人和听人之间沟通鸿沟的重要应用,已引起学界的广泛关注。其中,基于神经机器翻译框架的SLT是伴随着人工智能领域发展而新兴的研究领域。我们发现基于目前的研究框架,很难通过弱监督的形式深度挖掘手语作为
学位
析氧反应(OER)和氧还原反应(ORR)是可再生能源转换和存储技术中重要的两个电极反应,开发价格低廉、高效稳定的电催化剂是实现能源转化技术产业化的关键。从微观层面认识催化剂晶体结构、电子结构与催化活性之间的内在关联对设计高活性电催化剂具有重要意义。本文以结构可调控、价态丰富的Mn基钙钛矿氧化物为研究载体,通过元素掺杂、外加磁场等策略有效调控催化剂的电子结构和电子自旋态,结合同步辐射光源的X射线光电
学位
报纸
迁移学习(Transfer Learning)是研究如何利用其他相关领域已有经验和知识来帮助学习目标任务的方法。大多数现有的研究都是在离线数据之上进行的。而实际应用中常常需要面对在线场景下的学习任务,在这些问题中的训练样本均按一定顺序依次到来,通常无法直接获取或需要付出高昂的代价。因此进行有效的在线迁移学习算法研究具有重要的现实意义。但是,现有的在线迁移学习方法仅简单实现了将在线学习方法引入到迁移
学位
近年来,自动驾驶技术逐渐成为学术界及工业界研究的重点,而车载移动激光雷达获取到的三维点云数据,是智能车辆感知周围环境的关键信息。由于雷达传感器与物体的相对位置、物体的自遮挡与物体间的相互遮挡,使得采集到的数据中无法获得完整的车辆点云。为了更精准地感知环境,需要借助三维补全技术来获得更完整的、更高质量的点云数据。随着相关研究的逐渐深入,许多基于深度学习的三维补全模型相继出现,但这些研究大多在合成数据
学位
数学公式在很多领域像科学研究、金融和统计中都有着非常广泛的应用。目前将数学公式输入到电子设备最常用的方式包括使用排版系统比如LaTex和公式编辑器比如MathType,但是这些方式都要求用户掌握大量的语法规则。还有一种方式是用户在手写设备上书写数学公式,这对于编写科学文档等需要使用大量数学公式的场景中更加有效便捷,因此实现手写数学公式自动识别的需求变得越来越迫切,同时随着智能手机和其他手写输入设备
学位
自晚古生代以来,准噶尔盆地东部经历了多期陆内变形事件的改造,形成了独特的棋盘状构造,其形成演化是中亚造山带陆内变形的一个缩影,但其形成过程仍处于争议之中。此次研究围绕准噶尔盆地及周缘地区的二叠纪至新生代的构造变形开展研究,结果表明准噶尔盆地东部变形的驱动力主要来自不同板块边缘的相互作用,尤其是来自特提斯构造域的影响。晚二叠世,准噶尔盆地遭受了近东西向的挤压应力改造,盆地整体发生变形,形成了一系列近
期刊