论文部分内容阅读
车型识别(Vehicle Type Recognition,VTR)是让计算机根据机动车型号对机动车分类的技术,在许多实际应用中占据着最基础的一环,例如智能交通、监控追踪和无人驾驶等。根据分类的粒度,车型识别可分为基于整体外观的粗粒度车型识别和基于局部细节的细粒度车型识别,它们一般独立应用于不同的场景中。车型识别已经有了二十多年的研究历史,然而无论对于粗粒度车型识别还是细粒度车型识别来说,任意拍摄视角下的识别准确率仍不令人满意。同一辆机动车在不同的视角下有不同的平面外观,这些外观的差异性很大,提升了车型识别的难度。在粗粒度层面,多视角问题一直未得到深入研究;在细粒度层面,已有研究虽然考虑了多视角因素的影响,但是车型识别的准确率不高。基于已有研究的不足,本文总结了两个关于车型识别的工作重点:1.在粗粒度车型识别中解决多视角因素的影响;2.提升细粒度车型识别的准确率。围绕上述两个重点,本文开展了以下工作:1.创建粗粒度的多视角车型识别(Multi-View Vehicle Type Recognition,MVVTR)数据集。已有的粗粒度车型识别数据集都是为基于特征提取或几何估计的方法服务的。这些方法都只考虑了有限视角下的情况,因而无法在这些数据集上研究拍摄视角对车型识别的影响,只能创建新的车型数据集。利用网络爬虫技术,我们从互联网上搜集了七种车型的多视角照片。这些照片的拍摄视角既有正面和背面,也有侧面和斜侧面。2.设计反馈增强的多分支卷积神经网络(Feedback-enhanced Multi-branch Convolutional Neural Network,FM-CNN)。本文首先针对车型识别问题训练或微调了已有的神经网络,结果性能很差,神经网络无法学到有用的特征。考虑到诸如SIFT和HOG等传统图像描述子中将多尺度特征整合的方法,本文对已有神经网络做出改进,将卷积部分扩展成多个分支,分别接受不同尺度的输入。为了减轻在训练过程中不同分支之间的相互干扰,本文又为每一个卷积分支增加了一个局部分类模块,增强每一个分支从分类结果得到的反馈。3.微调FM-CNN的高层卷积层,避免过拟合。本文使用的粗粒度和细粒度车型识别数据集都是小数据集。从训练或微调已有神经网络的结果推断,用这些小数据集训练或微调FM-CNN里的所有参数会造成过拟合。考虑到卷积神经网络里面不同卷积层学习到的特征跟人脑视觉神经元响应的特征具有相似的语义层次性,本文假设神经网络浅层卷积层学习到的低语义特征对于不同的任务具有普适性,而高层卷积层学习到的高语义特征才具有任务特异性。所以,本文让FM-CNN复用已有神经网络的权重作为初始化,只微调高层卷积层和全连接层的权重,减少需要更新的参数量,降低过拟合的风险。通过上述三点工作,本文的FM-CNN在粗粒度和细粒度车型识别上都超过了已有方法:在粗粒度车型识别上达到了 94.9%Top-1准确率;在细粒度车型识别上达到了 91.0%Top-1和97.8%Top-5准确率。