论文部分内容阅读
行车途中驾驶员的手持通话行为会严重分散其注意力,使得发生道路安全事故的风险比正常驾驶时高4倍以上。目前,国内外学者针对驾驶员手持通话这一特定行为状态检测的研究还比较少,主要集中在基于非视觉和基于视觉的检测研究上。而近年来随着深度学习的迅速崛起,其基于卷积神经网络的自动学习特征、高准确率和强鲁棒性等特性给图像分类、目标检测和目标跟踪等领域带来了新的曙光。本文将基于深度学习的目标检测方法应用到交通领域的驾驶员手持通话状态识别的研究中,其中重点基于区域提案的目标检测方法展开研究。主要研究工作如下:首先,构建驾驶员手持通话状态数据集。本文采集来自比特达交通运营平台上的实时视频数据,将这些视频数据转换为连续视频帧,并通过镜像的方式进行扩增,创建实验所需数据集。在实验前将数据集统一整理为VOC2007数据格式并划分为训练集和测试集,然后利用LabelImg图像标注工具对训练数据集进行分类和标注,形成标注文件,以便后续网络的训练和测试使用。其次,提出了一种改进Faster R-CNN的手机物体检测方法。针对大量背景噪音以及明暗变化对图像的影响,通过数据增强的方法对图像做简单预处理。引入扩张卷积的思想,改进残差结构并融入到检测子网络部分,缓解输入图像经过特征提取后特征图逐步变小的问题。采用四步交叉的方式训练改进后的Faster RCNN检测模型并设置对应的多任务损失函数,最后通过实验对比改进前后模型的性能。实验表明,改进后的检测模型准确率达到了91.42%,相较于原模型图像的检测精度得到了有效的提升。最后,提出了一种基于策略融合的驾驶员手持通话状态检测方法。在改进的网络结构的基础上,融合不同的优化策略分别减少漏检测和误检测的情况。其中,设计合适的锚框策略并采用多尺度训练的方式减少漏检测情况;接着在网络模型中引入OHEM(Online Hard Example Mining)策略,通过多次反复训练困难负样本,增强网络对困难负样本的识别能力,从而减少误检测情况。最后通过多组对比实验选取适合本文数据集的超参数(随机失活值、批处理大小和置信度阈值),进一步优化检测性能。实验表明,策略融合后的检测模型性能得到了进一步的提高,在保证实时的同时性能提升了3.26%。该论文有图29幅,表12个,参考文献82篇。