基于卷积神经网络的行人检测方法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:fgq8022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行人检测是计算机视觉领域的一项重要任务,其在车辆辅助驾驶、视频监控、智慧交通以及智能机器人等领域都有着巨大的研究价值和应用前景。近年来,基于卷积神经网络的行人检测算法快速发展,行人检测模型的性能不断提升。然而,高精度的行人检测模型往往存在模型体积较大、计算成本较高和检测实时性差等问题,难以适应行人检测各种应用场景的要求。本研究旨在提高行人检测算法的检测精度与速度,并结合模型压缩技术降低模型的部署成本。本文在YOLOv4算法的基础上进行改进,并设计出一种行人检测模型压缩算法,主要工作包括:(1)针对YOLOv4通用目标检测算法与行人检测任务存在的参数不匹配问题,本文使用k-means++算法对INRIA数据集和Caltech数据集进行先验框聚类,聚类得到的锚框的平均交并比对比k-means算法有明显提升。此外,本文在损失函数设计中使用FocalLoss代替交叉熵损失函数,以改善行人目标正负样本不平衡的问题。(2)针对YOLOv4模型学习重复梯度信息和参数冗余的问题,本文将YOLOv4网络中的多尺度融合模块进行了跨阶段局部化设计。在不降低检测精度的基础上,这种改进使检测模型的浮点运算量下降15.6%,模型体积减小17.9%,有效降低了模型的部署成本。(3)本文提出一种基于YOLOv4行人检测模型的压缩算法,通过稀疏化训练、模型通道剪枝和知识蒸馏微调训练等步骤,以损失少量精度的代价,实现了检测模型的较大压缩。在剪枝率分别为0.1、0.3、0.5和0.8的情况下,压缩后的轻量级行人检测模型相较原模型,参数量分别下降8.6%、26.3%、44.0%和63.4%。
其他文献
随着近几年人工智能的发展,知识图谱逐渐成为了工业界和学术界研究的重要课题。知识图谱的概念最早提出是为了提升搜索引擎的性能,但是由于其对于知识的高度抽象性和结构化,应用空间从最早的搜索引擎扩展到了问答系统,推荐系统等领域。Wikidata[1],DBpedia[2]和YAGO[3]等全领域的知识图谱大多都是基于结构化数据进行构建的。随着自然语言处理技术日趋成熟,从非结构的文本数据中抽取信息自动化的构
隐蔽信道是一种用于数据泄露的网络攻击手段,DNS隐蔽信道利用广泛使用的DNS协议作为媒介来达成这一目的。基于DNS流量的检测,可发现隐蔽信道通信。目前的方法无法有效检测低速多域名DNS隐蔽信道。为解决以上问题,本文提出了利用DNS流量进行DNS隐蔽信道通信检测的完整方案,主要包含以下工作:1.针对一般DNS隐蔽信道通信,提出了基于两阶段模型的DNS隐蔽信道通信检测方案。方案结合了隐蔽信道通信过程特
光子晶体是指人造的周期性电介质材料,由于其优秀的控光特性,目前已经应用于多个光学领域。一维光子晶体具有尺寸小、灵敏度高、模式体积小等优势,在片上集成传感方面具备显著的优势。经过多年来的发展,大量基于一维光子晶体纳米束微腔的传感器被研发出来。但是,由于外界实际检测环境的复杂性,检测结果同时受到多个参数的影响,多参数传感器应运而生。由于热光效应的存在,温度会改变介质的折射率,从而间接引起谐振波长的偏移
近年来,随着大数据、人工智能的蓬勃发展,教育形态发生了深刻的变革,在线教育发展迅速,各类在线学习平台应运而生。在线学习平台提供了海量学习资源的同时,如何为学生推荐适合自身的学习内容也成为一个难题。教育领域现有的个性化推荐研究存在诸多问题:研究内容上,现有教育领域的个性化推荐目标多为提升点击率,如推荐学生感兴趣的课程,此类研究无法帮助学生加强其对薄弱知识点的掌握,进而有效提升学习表现;研究方法上,一
符号动力学是一个描述混沌行为非常有用的工具,他能够捕捉系统的拓扑特性同时忽略系统内部间的复杂行为。但是问题是对于一个混沌系统很难得到一个合适的符号划分,尤其当高维系统上稳定和非稳定流形间的行为更为复杂且相互影响时。所以在这篇论文里,我们提出了一个新的方法能有效的帮助我们解决高维符号划分的问题。我们的方法仅依赖于非稳定流形,从而避免了高维稳定流形所带来的干扰。同时我们在每一层的非稳定流形上去寻找其关
随着网络社交的普及,网络谣言会对社会造成非常大的影响。如何准确识别网络社交平台上的谣言对维护社会的秩序显得尤为重要。现阶段对于网络谣言主要是通过传统的机器学习方法或基于深度学习的模型进行检测,这些方法受评论的指向性问题和因序列过长导致的特征不完整问题的影响,对于网络谣言的判别还未能达到比较高的准确率。本文针对上述问题提出了网络谣言检测中相应的改进方法,并使用预训练模型进行微调来加快模型的收敛,在一
当今时代,互联网和云计算的蓬勃发展让数据中心扮演着非常重要的角色。数据中心网络因为可靠性和健壮性的要求,服务器间拥有多条路径,但是传统的数据中心网络拥塞控制机制无法充分利用这些可选路径,也无法有效地解决数据中心的拥塞问题。所以软件定义网络(Software Defined Networks,SDN)网络架构逐渐在数据中心网络中被广泛地使用。SDN可以获取网络的全局信息,更好地监测网络状况并且制定拥
视频信息为车辆的智能化和网联化提供了丰富的信息,视频数据中包含的信息需要通过内容理解与分析来获取,这使车联网视频内容的理解与分析逐渐成为一种趋势,提高视频内容理解的精度成为推进车联网发展的重大挑战。同时移动边缘计算(Mobile Edge Computa-tion,MEC)的发展为车辆提供了大量的计算资源,弥补了车辆计算能力的不足,因此如何利用移动边缘计算来提高视频内容理解精度成为重要的问题。车联
无人机、自动驾驶等越来越多的领域都需要设备小型化和功能多样化,并且需要同时具有雷达传感功能和通信功能,这产生了对雷达和通信一体化设计的强烈需求。同时随着雷达系统和通信系统的快速发展,两者不仅在运行频段上逐渐产生了重合,并且在系统结构上也出现了很多相似点,这让实现雷达通信一体化系统成为了可能。本文研究了基于正交频分复用(Orthogonal Frequency Division Multiplexi
近几年来,在人脸识别领域,基于深度学习的人脸识别的性能比人类还要好,并且已经被广泛应用到很多现实场景中,如手机解锁、机场安检等。因此,研究真实世界中人脸识别模型的安全问题尤为重要。ArcFace作为性能堪比商业级人脸识别系统的开源模型,部分学者已经验证并实现了在真实世界中对该模型的白盒逃逸攻击,但暂未验证是否可以实现难度更高的白盒模仿攻击。本文为探究上述问题,以基于ArcFace模型的人脸验证系统