论文部分内容阅读
车型识别是计算机视觉领域的一个研究热点,在交通安全、卡口管理、车流统计等方面有着广泛应用。作为细粒度图像分类问题的子问题,不同类别的车辆在形态、结构上具有一致性;同时,还存在不同条件下拍摄的车辆图像姿态多变、外观各异等特性。针对传统车型识别算法严重依赖于固定的背景和拍摄角度等问题,本文采用基于卷积神经网络改进的模型实现了对任意角度和背景的车辆图像进行细粒度分类的算法。本文首先采用视觉词袋模型作为细粒度车型分类的比较基准,视觉词袋模型通过提取所有样本图像的SIFT特征进行聚类来构造视觉特征字典,然后将训练集中的图像样本的SIFT特征向量根据视觉特征字典映射成图像特征向量,利用图像特征向量来训练分类器并对测试集图像进行测试。在此基准算法的基础上,本文根据车型识别的特点,给出了三种不同结构的卷积神经网络。首先对专门应用于手写数字识别的卷积神经网络LeNet-5进行了改进,通过修改卷积核的尺寸和数量以及隐层的结构,使其能应用于较大的车辆图像并且适应于较小的数据集;然后加入Convnet-5中所采用的Dropout和有重叠的池化两种改进方法,提高网络的泛化能力,得到第二种卷积神经网络模型;最后将空间金字塔池化结构添加到全连接层之前,使得不同尺寸的输入图像在经过数个卷积层之后,能通过空间金字塔池化的方式得到统一尺寸的输出,这样的方法避免了对输入图像进行裁剪和缩放的操作,减少了图像形变给细粒度车型识别带来的巨大影响。实验采用Theano库实现相应的模型,并且分别对ImageNet数据集下的5类车辆图像、洗车行监控系统采集的少量固定视角车辆图像以及FGC2012数据集中的车辆子类进行了对比实验。结果表明采用卷积神经网络实现的算法较大地提高了对于任意视角任意背景条件下的车辆图像的识别率,卷积神经网络模型不需要对图像做任何预处理,直接通过原始图像学习到的特征相对于人工设计的特征能够更好地表征细粒度车辆类别之间的差异,相对于传统的车型识别算法具有明显的优势。