论文部分内容阅读
货检作业自动化的关键环节包括列车车号的定位与识别,即能够自动记录车号信息,节省人力物力。近年来,将计算机视觉技术应用于列车车号识别,既能节省成本,又能实现对列车的自动监测,为铁路车号识别带来了便利。
但是,识别图像或者视频中的车号也存在许多难题:首先车号区域在车厢全景图像中占的面积比例极小(小于0.41%),并且存在许多非车号的文本干扰;其次列车车号具有位置多变和字符间隔不定的特点;再次车号识别极易受到光照,车体结构复杂,背景多变,车厢污损和透视变形的干扰。现有的自然场景文本识别方法不能直接用于本文任务,难以取得理想效果。一方面容易漏检小车号目标。另一方面单词级别的文本定位方法,容易将数字间隔大的车号定位成两个部分。同时存在透视变形的车号识别准确率低。针对上述难点,本文分别提出了面向视频和面向图像的列车车号定位与识别方法,实现鲁棒的货运列车车号的定位与识别。
本文主要工作内容如下:
(1)针对静态图像,在货运列车车号的定位阶段,创建货运列车车号检测数据集,提出一种面向图像的列车车号定位方法。首先采用一种基于深度学习的基础模型定位列车车号,效果不佳。因此本文在此模型的基础上提出三点改进,得到车号定位模型。针对小目标易漏检的问题,融合不同尺度特征图,用于生成文本候选区域,解决定位中的多分辨率问题。针对不能精确定位完整车号的问题,不仅增加了水平方向回归层,还提出了边界敏感的细粒度文本框精确定位策略(border-sensitive fine-grained text box,BSF)和困难样本挖掘策略(hard example mining,HEM)。经过改进之后,列车车号检测F1-Measure为0.94。实验测试数据由本文自行标注的2109幅列车车厢全景图组成,包括黑夜、白天、不同车型、车号尺度多变等图像。每幅图像的检测速度为0.19s。
(2)针对静态图像,在货运列车车号的识别阶段,实现了基于注意力机制的列车车号识别方法,即面向图像的列车车号识别方法,并与其他先进的车号序列识别方法做了对比。此方法由卷积层,编码层和基于注意力机制的解码层三部分组成。经过测试,最终实现列车车号整体识别F1-Measure为0.81。车号字符识别F1-Measure为0.94。每幅图像的识别速度是0.04s。
(3)针对视频数据,为实现货运列车车号的定位与识别,构造了视频车号检测与识别数据集,提出了一种面向视频的形变车号识别方法。由于视频中的列车车号存在由监控摄像头的视角带来的透视形变,因此不宜采用静态文本识别方法。本文提出的方法为多阶段的车号识别方法,首先针对视频车号存在时间冗余、字符清晰度差的问题,设计了基于跟踪的视频车号定位方法,降低误检,并减少漏检。其次针对形变车号,使用内置矫正网络的端对端的车号识别方法。最后提出基于视频的车号序列推荐策略,进一步利用轨迹优化识别结果。实验数据为包含7086帧的视频段,经过实验,最终实现列车车号整体识别F1-Measure为0.91。车号字符识别F1-Measure为0.99。每幅车号图像的识别速度是0.23s。
但是,识别图像或者视频中的车号也存在许多难题:首先车号区域在车厢全景图像中占的面积比例极小(小于0.41%),并且存在许多非车号的文本干扰;其次列车车号具有位置多变和字符间隔不定的特点;再次车号识别极易受到光照,车体结构复杂,背景多变,车厢污损和透视变形的干扰。现有的自然场景文本识别方法不能直接用于本文任务,难以取得理想效果。一方面容易漏检小车号目标。另一方面单词级别的文本定位方法,容易将数字间隔大的车号定位成两个部分。同时存在透视变形的车号识别准确率低。针对上述难点,本文分别提出了面向视频和面向图像的列车车号定位与识别方法,实现鲁棒的货运列车车号的定位与识别。
本文主要工作内容如下:
(1)针对静态图像,在货运列车车号的定位阶段,创建货运列车车号检测数据集,提出一种面向图像的列车车号定位方法。首先采用一种基于深度学习的基础模型定位列车车号,效果不佳。因此本文在此模型的基础上提出三点改进,得到车号定位模型。针对小目标易漏检的问题,融合不同尺度特征图,用于生成文本候选区域,解决定位中的多分辨率问题。针对不能精确定位完整车号的问题,不仅增加了水平方向回归层,还提出了边界敏感的细粒度文本框精确定位策略(border-sensitive fine-grained text box,BSF)和困难样本挖掘策略(hard example mining,HEM)。经过改进之后,列车车号检测F1-Measure为0.94。实验测试数据由本文自行标注的2109幅列车车厢全景图组成,包括黑夜、白天、不同车型、车号尺度多变等图像。每幅图像的检测速度为0.19s。
(2)针对静态图像,在货运列车车号的识别阶段,实现了基于注意力机制的列车车号识别方法,即面向图像的列车车号识别方法,并与其他先进的车号序列识别方法做了对比。此方法由卷积层,编码层和基于注意力机制的解码层三部分组成。经过测试,最终实现列车车号整体识别F1-Measure为0.81。车号字符识别F1-Measure为0.94。每幅图像的识别速度是0.04s。
(3)针对视频数据,为实现货运列车车号的定位与识别,构造了视频车号检测与识别数据集,提出了一种面向视频的形变车号识别方法。由于视频中的列车车号存在由监控摄像头的视角带来的透视形变,因此不宜采用静态文本识别方法。本文提出的方法为多阶段的车号识别方法,首先针对视频车号存在时间冗余、字符清晰度差的问题,设计了基于跟踪的视频车号定位方法,降低误检,并减少漏检。其次针对形变车号,使用内置矫正网络的端对端的车号识别方法。最后提出基于视频的车号序列推荐策略,进一步利用轨迹优化识别结果。实验数据为包含7086帧的视频段,经过实验,最终实现列车车号整体识别F1-Measure为0.91。车号字符识别F1-Measure为0.99。每幅车号图像的识别速度是0.23s。