论文部分内容阅读
近年来,人脸检测和行人检测是计算机视觉中非常重要的研究课题,并且取得了相当大的进展。然而,基于二者的人数统计任务在实际应用中仍存在限制。人脸检测方法仅仅能够检测人脸,这就意味着当人背对着摄像头时,该目标就会漏检;同时由于室内场景的复杂性,身体的大多数部位都是不可见的,所以行人检测的方法同样不可行。而人头检测就没有上述限制。在人头检测领域,虽然已经有相关团队基于传统图像处理方法及深度学习方法对其进行研究,但由于人头目标具有尺度小、拥挤场景下极度密集等检测难点,因此仍然有较大的提升空间。此外,如何平衡检测模型的精度和速度也是一大难题。
本文主要基于卷积神经网络,提出能够准确且高效地进行人头检测的新网络。网络主要由基于空洞卷积的Anchor预生成模块、基于反卷积的层间特征融合模块以及基于语义上下文信息的人头检测模块三部分组成。Anchor预生成模块的主要作用是过滤易分类的负样本,解决目标检测中的正负样本不平衡问题,得到精炼后的Anchor目标。特征融合模块主要对不同尺度特征层进行融合,通过融合高分辨率、弱语义信息、多位置信息的低层特征,以及低分辨率、强语义信息、少位置信息的高层特征,使得特征在语义表达能力增强的同时位置信息也能够增强,针对性解决小目标漏检问题。人头检测模块以精炼后的Anchor目标以及融合后的特征作为输入,通过增大有效感受野的方法,充分利用语义上下文信息辅助检测人头目标,有效改善因干扰物体造成的目标漏检问题,最后进行二次级联的分类回归,得到准确的人头目标位置。
本文设计了新的人头检测网络结构,通过Anchor预生成模块、特征融合模块及人头检测模块三部分共同作用,最终模型能够在检测精度和速度上达到平衡。同时网络利用不同尺度特征层的输出,将各相邻特征层通过“自顶向下”以及“横向连接”的方式,进行特征融合解决小目标漏检问题。此外,提出线性非极大值抑制,以减轻因目标相互遮挡现象造成的人头目标漏检问题。最终本文在公开的人头数据集Brainwash上,通过进行实验对比以及验证各个模块的作用,模型检测精度达到了当前最优的结果,平均精度值为90.40%,同时检测速度能够达到25帧每秒。
本文主要基于卷积神经网络,提出能够准确且高效地进行人头检测的新网络。网络主要由基于空洞卷积的Anchor预生成模块、基于反卷积的层间特征融合模块以及基于语义上下文信息的人头检测模块三部分组成。Anchor预生成模块的主要作用是过滤易分类的负样本,解决目标检测中的正负样本不平衡问题,得到精炼后的Anchor目标。特征融合模块主要对不同尺度特征层进行融合,通过融合高分辨率、弱语义信息、多位置信息的低层特征,以及低分辨率、强语义信息、少位置信息的高层特征,使得特征在语义表达能力增强的同时位置信息也能够增强,针对性解决小目标漏检问题。人头检测模块以精炼后的Anchor目标以及融合后的特征作为输入,通过增大有效感受野的方法,充分利用语义上下文信息辅助检测人头目标,有效改善因干扰物体造成的目标漏检问题,最后进行二次级联的分类回归,得到准确的人头目标位置。
本文设计了新的人头检测网络结构,通过Anchor预生成模块、特征融合模块及人头检测模块三部分共同作用,最终模型能够在检测精度和速度上达到平衡。同时网络利用不同尺度特征层的输出,将各相邻特征层通过“自顶向下”以及“横向连接”的方式,进行特征融合解决小目标漏检问题。此外,提出线性非极大值抑制,以减轻因目标相互遮挡现象造成的人头目标漏检问题。最终本文在公开的人头数据集Brainwash上,通过进行实验对比以及验证各个模块的作用,模型检测精度达到了当前最优的结果,平均精度值为90.40%,同时检测速度能够达到25帧每秒。