面向遮挡场景的行人检测算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:wufang78
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行人检测作为计算机视觉的重要分支,在智慧交通、智能监控、搜索营救等多个领域具有重要的研究意义。在实际场景中,行人经常被周围环境所遮挡,使得行人特征信息不完整且不易与背景区分,对行人检测的准确性提出了极大挑战。为有效解决遮挡行人检测困难且定位不准确的问题,本文开展了基于深度学习的遮挡行人检测算法研究。论文主要工作内容如下:(1)针对遮挡行人特征不完整而造成模型检测性能不佳的问题,提出了一种自注意力机制引导下的多任务学习遮挡行人检测算法。为使算法具有较好的检测效果和实时性,采用Center Net作为行人检测的基础网络,分别从自注意力机制引导下的特征提取以及弱语义分割预测分支两个方面对网络进行优化,增强网络对遮挡行人的检测能力。采用随机遮挡行人部位的数据增强策略来提高算法的鲁棒性,实验结果表明,该算法相较于基础网络具有更高的检测精度,在Occluded Person私有数据集中对遮挡行人的召回率由80.50%提高到85.64%。(2)针对行人检测网络在复杂场景下易造成背景误检的问题,提出了一种基于行人可见区域再评估的遮挡行人检测算法。设计了可见区域估计网络,用于预测行人可见区域的分类置信度,从而评估候选区域内行人的遮挡情况。通过综合考虑行人全身区域与可见区域的分类置信度,降低模型的误检率。在Occluded Person私有数据集中的测试结果表明,该算法在提高平均准确率的同时,对遮挡行人的召回率进一步提高至86.31%。(3)针对遮挡行人检测中行人区域定位不准确的问题,提出了一种结合点集特征和定位置信度的遮挡行人检测算法。为降低行人的非刚性变化对定位的影响,设计了基于点集特征的坐标校准方法,实现对预测目标位置由粗到细的精确回归。使用定位置信度对预测框的准确性进行评估,避免只使用分类置信度作为判别依据导致准确预测框被滤除的问题。在边框回归任务中使用完全交并比(Complete Intersection over Union,CIo U)损失函数,获得更准确的预测框。实验结果表明,综合改进后的算法对遮挡行人的召回率提高至87.11%。本文致力于提升遮挡场景下行人检测算法的性能,从提高模型的特征提取能力、对背景区域的判别能力以及回归任务的准确性等角度对行人检测算法进行了研究,经测试本文算法有效提升了对遮挡行人的检测性能,具有实际应用价值和前景。
其他文献
互联网平台的迅速崛起为民众提供了发表观点的场所,评论文本中蕴含着丰富的主观情感倾向,文本情感分类研究受到广泛关注。目前,深度学习技术凭借优秀的特征捕捉能力,逐渐成为文本情感分类研究的主流方法。然而,部分基础模型特征提取能力单一,导致特征表示不够全面。同时,复杂的模型结构意味着繁琐的参数调节过程。针对深度学习方法存在的问题,本文以文本情感分类任务为切入点,构建基于混沌狮群优化的情感分析模型和多尺度语
学位
无线传感器网络作为一种新型的监控方式,可对周围环境进行监测和数据采集,是物联网的重要组成部分,已广泛应用于各个领域。由于无人机具有易部署、灵活性高、机动性强等特点,使用无人机收集传感器监测的数据可以减少延迟,增强无线传感器网络的可持续性。然而,无线信道的广播特性增加了无线通信被窃听的风险。为使监测数据和敏感信息不被泄露,无线通信的安全问题必须得到保障。然而,现有工作在保护无线通信安全的同时均未考虑
学位
智能规划是人工智能研究的主要领域之一,其使用自动化的过程处理现实中的规划和调度问题。随着规划问题的不断复杂化,出现了具有不确定性因素的规划问题。这类问题很难使用原有的智能规划技术求解,这时就出现了概率规划。概率规划作为智能规划的一个分支,弥补了智能规划在求解不确定性问题方面的不足,并逐渐成为研究的热点。概率规划能很好的支持动作的并行性和动作的不确定性。但这些特性会导致随着状态变量个数的增加,状态数
学位
在共乘场景中,具有相似出行路线和相近出行时间的多名乘客一同出行,能降低出行的成本和缓解交通拥堵。同时,减少实际所需的车辆数目能减少用于交通运输的能源消耗。然而现有的共乘研究大多忽略了提供接载服务的车辆的收费标准不一致对乘客出行服务质量的影响。本文针对共乘平台能实时接收共乘出行请求的场景,研究司机与乘客之间的匹配问题。由于司机与乘客双方都存在策略的选择,本文将双方的匹配过程构建为一个主从博弈的过程。
学位
针对一类电磁感应现象的独特过程(自感现象的暂态过程)给出了教学实施案例和简要评析,以期给同行参考。
期刊
单张图像超分辨率(Single Image Super-Resolution,SISR)是根据低分辨率图像重建高分辨率图像的操作,是计算机视觉方向里一个重要分支。它也是医学图像、监控和安全等实际领域被广泛使用的图像处理手段。图像超分辨率既可以增加图像的视觉效果,也可以在其他计算机视觉问题中,提高程序的性能。在最近几年,由于深度学习的进步,由深度神经网络构建的图像超分辨率模型得到了积极探索。这些图像
学位
近年来,许多新兴的应用基于深度神经网络为移动终端提供视频分析服务,例如增强现实、人脸识别、智能摄像等等。然而,这类应用通常需要大量的计算资源以提供支撑,远超终端设备的处理能力。将视频分析任务卸载到云端/边缘服务器是近年来解决该瓶颈的一个研究方向。上述研究方向有如下两种研究视角:从终端的视角出发,需要研究视频帧的传输配置,例如分辨率、码率和采样率等等,以最大化该终端能够获得的视频分析精度;从视频分析
学位
近年间得益于强大的硬件计算性能和深度学习的蓬勃发展,以BERT为代表的自然语言模型陆续登上舞台,其在GLUE、SQu AD和RACE等自然语言处理测试任务集上取得了SOTA的优异成绩。与此同时,在通用领域上取得优异成绩的BERT模型却因受限于预训练过程中的语料规模,训练过程中缺少专业领域的事实知识,导致其准确度性能在专业领域中受到限制。目前已有学者提出知识增强型BERT模型,通过引入外部专业知识改
学位
微表情是在人们想要隐藏真实内心情绪,无法伪装和抑制的情况下产生的自发情绪,微表情识别在国家公共安全、临床诊断、审讯等领域具有广泛的应用前景。但微表情是面部肌肉的一种局部小幅度动作,通常只持续半秒,肉眼很难直接检测或识别。因此,需要实现微表情分析与识别的自动化。相较于传统手工特征描述的微表情识别方法,使用卷积网络的深度学习方法以端到端方式集成特征自动提取和分类,在微表情识别领域取得更好的识别性能。卷
学位
在人工智能快速发展的今天,离不开深度学习在各个应用领域的广泛应用与研究,但随着深度学习的不断发展,致使许多大型深度模型以及集成模型不断出现。这为神经网络在对实时性要求高的任务中使用,以及在资源有限设备上的部署留下不小难题。知识蒸馏作为现在深度神经网络模型压缩的主流方法之一,其主要通过让小模型在预训练大模型的监督信号引导下,接受来自预训练教师大模型的知识辅助训练,以达到用更少参数的小模型得到接近大模
学位