论文部分内容阅读
近年来,人工智能的再度崛起,引领着学术界和工业界迈向了新的章程。以人工智能为核心,深度学习技术为依托的新型研究路线和理论体系已经逐渐形成,传统算法低效、繁琐、效果差、普适性低的困扰也逐渐成为了历史。纵观整个产学研,都毫不例外地征战在领域的前线。在深度学习的推动下,计算机视觉高速发展,取得了一系列的成果。以目标分类、目标检测、语义分割和实例分割为代表的视觉任务正一步步地突破,达到了前所未有高度。技术的突破往往伴随着商业利益的争夺,谷歌、通用、百度等无人驾驶研究公司不惜斥巨资于无人驾驶的研究,作为高级辅助驾驶核心任务的基于深度学习的行人目标检测,由此应运而生。在自动驾驶场景下,行人目标往往形态各异、大小不一、色彩丰富和分布广泛,此外,成像条件、天气环境、光晕阴影等噪声的影响也不可忽略,这些都无疑大大地增加了该课题的研究难度。本课题依托当下火热的深度学习技术,致力于以最高效的模型得到最完美的检测效果,着重解决较小行人目标检测错、检准难,夜晚等复杂场景检测漏、重复检测等问题。基于此,在实验前充分查阅资料,调研数据集并进行了详细的统计分析。实验时博采众长,将当前行人目标检测模型设计的技巧,如空间金字塔池化、多尺度特征融合、深度可分离卷积、残差连接等应用于模型,设计出一个十分精简高效的综合检测模型,并在训练参数的过程中使用预热训练、多尺度训练和手动调参等技巧。训练收敛后对模型应用了通道剪枝和权重量化的压缩技术,为模型在移动端的部署奠定了基础。实验最后得到的模型在BDD 100K数据集上行人目标的mAP达到59%的同时,FPS能保持70~+,其中的小行人目标也有38%的mAP。为了进一步提升小目标的检测效果,实验尝试使用切图、感兴趣区域提取和红外摄像头加屏蔽可见光等手段进一步处理,取得了不错的效果。实验对模型进行的道剪枝压缩,使模型体积缩减了50%,精度只下降了2%,另外,推理时将FP32的精度转化为INT8的精度表示使速度进一步提升至1.3倍,mAP最终保持在54.7%。通过本课题的研究,不仅很好地解决了当下自动驾驶领域里比较棘手的问题,同时验证了各种深度学习理论和技术的实用性,这不仅能更好的激发研究者的研究兴趣,还能进一步促进领域技术的发展。