论文部分内容阅读
驾驶员注意力预测是仿人驾驶系统中一个重要研究课题,本文试图预测驾驶员在驾驶事故场景下的注意力聚焦区域。由于事故场景在线收集很难,并且交通场景的动态性、复杂性和事故类别的不平衡性也为注意力预测任务带来了巨大挑战。因此本文离线地构建了面向驾驶事故场景的驾驶员注意力数据平台,并提出基于语义信息引导的注意力预测模型去完成注意力预测任务。(1)由于驾驶事故在线收集困难,因此本文离线地收集了驾驶员视角下的行车记录仪视频,在实验室的环境下模拟真实驾驶场景,收集驾驶员眼动数据,构建一个多样化的驾驶注意力数据集,称之为DADA-2000。该数据集中每个视频均包含驾驶事故,按照事故发生的类型共分为54类。整个数据集共有2000个视频序列共计658476帧图像,每一帧图像均采集了眼动数据。该数据集的提出为注意力预测研究在驾驶场景中的应用提供了实验数据支撑,并且被研究者们广泛关注并引用。(2)为了完成在复杂的驾驶场景实现注意力预测任务,本文设计了语义信息诱导的注意融合网络(Semantic Context Attentive Fusion Network,SCAFNet)。该网络同时输入RGB视频图像帧和与之对应的语义分割图像帧,采用3D卷积网络提取时空特征,利用卷积长短期记忆网络实现注意力在时间上的传递。该网络不仅有效地表征了连续图像帧的时空特征,也融合了对应视频帧的场景语义信息即驾驶环境中目标的时空关联关系,从而提高了驾驶场景下注意力预测的准确性。本文在自主采集的DADA-2000以及公开数据集DR(eye)VE和Traffic Gaze上进行了实验对比,与最新的七种注意力预测方法进行了比较。结果表明本文提出的方法取得了最佳的预测精度,可以更好地适应驾驶场景下的注意力预测。