论文部分内容阅读
随着互联网技术的不断发展以及人们生活水平的不断提升,对互联网的应用也越来越广,要求也越来越高,从最初的查阅资料到渗透到生活中衣食住行等各个方面,例如,应用到人脸识别、智能驾驶、目标检测以及目标追踪等领域。在应用的同时对其性能的要求也越来越高,不仅要具有较高的准确性,还需要及时性等。而提高准确性的同时往往会带来计算量的陡增,这就必然对计算机硬件等要求更高,而且还易导致其延时,降低及时性。计算机硬件已经有了质的飞跃,5G时代的到来无疑是人工智能发展的一个窗口期。而深度学习作为人工智能的一个重要分支,其重要性不言而喻,卷积神经网络(Convolutional Neural Network)作x为深度学习领域的杰出代表,更是受到相关研究者的追捧。本文就是从卷积神经网络的原理出发进行研究,通过设计改进卷积神经网络结构,提高其网络的准确率,并且尽量降低网络参数,使其更具实用性。利用图像分类识别对其进行性能检验,在此基础上对目标检测进行研究并改进。本文最终将其应用于动态人数检测。本文主要研究内容包括以下四个方面:(1)通过设计树叉型卷积神经网络,利用多卷积核进行交叉卷积,采用split-transform-split-merge方式。不仅增加网络的复杂度,有利于特征筛选,提升网络的泛化能力,还能提取特征图中更为隐性的特征,并且网络的基本架构保持不变,将网络中间卷积层中的传统卷积模块替换成树叉型模块,通过在几个公开数据集中进行训练,对比了树叉型卷积网络与传统卷积网络的性能,其中本文树叉型模块的网络在101_food、caltech256、GTSRB和cifar10中的准确率相比于传统的CNN分别提高了4.1个百分点、4.7个百分点、1.8个百分点和1.9个百分点。从实验结果中可以看出,网络在识别精度性能上有所提高。(2)本文利用树叉型模块对经典Darknet53进行改进。在树叉型模块中融入残差结构,一方面,有利于优化树叉型网络,利用残差结构所具有的鲁棒性,从而缓解卷积层加深所带来的过拟合。另一方面,实现树叉型模块对深层次网络Darknet53的优化,从而也进一步证实树叉型模块的可行性。改进的Darknet53比Darknet53的准确率提高了2.4个百分点。(3)本文的目标检测采用能实现多任务的网络来完成,即通过一个网络实现目标位置的定位以及目标类别的分类。采用第4章中的Darknet53以及改进的Darknet53网络作为目标检测的两个基础网络;采用边界框预测方法(Bounding Box Prediction)进行目标位置定位;为实现小目标物体检测,采用类似金字塔网络(FPN)进行多尺度检测。多目标检测即多个目标类别进行检测,比如本文采用的COCO2014数据集总共有80类,则通过目标检测训练后能够对该80类目标进行检测,采用了三种不同尺度的特征图进行检测,每种尺度检测时输出的特征图则为255张,包含目标位置、目标置信度以及目标类别预测。通过对两个网络的目标检测性能进行对比,改进的目标检测网络mAP提高了2.7个百分点,检测时间缩短了3 ms。(4)实现动态人数检测。动态人数检测既实时的在视频流中检测出每一帧中的行人,并统计其行人的数量。本文采用了深度学习中的卷积神经网络方法,动态人数检测是在多目标检测的基础上进行单目标检测,检测原理基本一致。动态人数检测也是计算机视觉研究领域中的热点以及难点,不仅需检测出视频帧中的行人,还需确定其位置和大小,本文采用矩形框表示,这也类似于人脸检测,属于典型的目标检测问题。动态人数检测一方面简化了多目标检测的计算量,使检测更具实时性;另一方面使得卷积神经网络方法更加契合实际需求,其可以应用于智能机器人、智能视频监控以及汽车无人驾驶系统(ADAS)等领域,从而更加具有实用性。