论文部分内容阅读
摘 要:随着汽车保有量的迅猛增加,人民群众的日常生活便利性得到了提升。然而交通拥堵、环境污染和交通事故也越来越得到人们的广泛关注。近些年电子信息和计算机技术得到了快速发展。伴随着人工智能技术在车辆上的应用,自动驾驶车辆将成为减少交通事故的有效途径之一。自动驾驶车辆关键技术包括环境感知、精确定位、路径规划和线控执行四类,其中环境感知技术为其它关键技术提供数据支撑。环境感知技术主要负责完成车辆周围环境信息采集和目标识别工作。单目相机由于具备结构简单和计算量小等优点而被广泛使用。
关键词:深度学习;机器视觉;目标检测
1背景
1.1自动驾驶背景及意义
隨着科学技术的快速发展,汽车逐渐成为人民群众日常生活中不可或缺的交通工具。汽车产业已经成为世界上最重要的行业之一,并成为很多国家的支柱产业。近年来中国经济稳步高质量发展,汽车保有量快速攀升。根据生态环境部发布的《中国机动车环境管理年报(2018)》显示,截至2017年末,机动车总计为29836.0万辆,其中汽车20816.0万辆叫汽车保有量的迅猛增加虽然给群众的日常生活带来了便利,但是却导致了交通拥堵、环境污染和交通事故。交通事故问题显得尤为重要,因为它往往伴随着人员伤亡。根据2017年底发布的《道路交通运输安全发展报告》显示,2016年交管部门接收的道路交通事故总计864.3 万起,同比上升16.5%。在人类驾驶员面对道路突发状况时,由于感知和操控 能力的局限性,导致人类驾驶员很难在短时间内识别道路状况并做出合理的决策 [3],这是造成交通事故的重要原因。
传统单目视觉目标识别技术主要依靠手工设计特征来构建模型,模型的质量取决于设计者的先验知识,因此这类算法的识别正确率不高。此外需要对不同类别的目标设计模型,因此这类算法的泛化能力不足。深度学习算法是机器学习研究领域的研究热点之一,深度学习算法为机器视觉带来了革命性的进步。由于该技术对数据学习能力很强,因此显著 提高了识别正确率。特别是训练得到的模型与输入数据相关,无需对各类别目标 进行模型构建,所以其泛化能力更好。综上所述,对基于深度学习的自动驾驶单目视觉目标识别关键技术研究具有重要意义。
1.2研究内容
本课题基于运动目标自主监视系统的算法研究,使用Python语言OpenCV 库,设计开发了动目标自主监视技术平台,验证了算法的可行性。并使用红外图像进行实验验证,最后分析比较了地面智能化处理服务器和星上资源环境的约束条件。地面智能化处理服务器集成了高密度GPU 模块,将单帧图片的处理能力提升到0.12s甚至0.06s,硬件架构、重量、功耗、 工作温度等均可具备星上工作的可能性,人工智能算法和硬件资源架构在星上约束条件下完成大数据智能化处理提供支持。
2识别算法基础
卷积神经网络(Convolutional Neural Network, CNN)是一种基于人类大脑认知原理的多层神经网络,通过计算机卷积核的卷积处理,将大数据量的图像目标 识别问题降维,从图像中学习,自主提取目标深度信息作为特征向量。最典型的卷积神经网络有卷积层、池化层、全连接层组成,在语音识别、自然语言处理、 计算机视觉、通用物体识别、人脸识别等领域均有很好的识别效果。卷积神经 网络的结构如图所示:
卷积层是使用卷积核来对输入图像进行卷积操作,将一个小的滑动窗口过滤图像各个小区域,得到各个区域的特征值,并将卷积组合输出,提取输入数据的特征。卷积核在训练过程中学习得到卷积核的参数值。大多数情况下,使用非线性激活函数来转换输出,使输出模型可以得到非线性特性,并且将输出限制在给定的范围内。
池化层是在卷积层之后,对输入的图像数据样本进行下采样,将下采样的结果作为池化层的输出结果,降低了数据维度,例如大小为20 X 20的原始图像, 使用4X4大小的采样窗口,最终将其下采样成一个大小为5x5的特征图,在实 际操作中,池化层下采样方法可以使用最大值下采样和平均值下采样两种方法。 在下采样过程中,即使丢失了一定的数据信息,但是从统计属性上来看,特征依然能够描述图像,并且在降低数据维度的同时,更能有效地避免过拟合现象。
全连接层出现在所有的卷积层和池化层之后,卷积层和池化层完成图像特征提取、降维等任务,全连接层则是将特征整合到一起,输出为一个值,完成分类任务。在卷积神经网络中,全连接层有两层或以上1 X4096卷全积结构,可以有效地解决非线性问题。但是全连接层参数众多,占整个网络总参数80%左右,影响网络工作效率,因此近年来ResNet和GoogleNet等性能优越的网络均采用全局平均池化(global average pooling, GAP)结构替代全连接层,以此融合图像深 度特征,具备更好的检测性能。
在提出典型的 CNN 算法之后,R-CNN、SPP-net> Fast R-CNN 和 Faster R- CNN网络结构相继提出,网络结构逐步改进,在图像处理任务中,高效准确地 实现了目标检测与识别。
3 目标自主监视算法实现
3.1特定目标识别算法原理
多目标自主识别算法采用深度学习算法识别每一帧图像中的多种目标。深度学习网络近年来迅速发展,在图像识别领域应用广泛,CNN、R-CNN、SPP-net> Fast R-CNN和Faster R-CNN网络结构相继提出,网络结构逐步改进,在图像处理任务中,高效准确地实现了目标检测与识别。本文将采用Faster R-CNN网络模型,设计多目标自主识别模型,FasterR-CNN网络从R-CNN网络上进一步改进而来,引入候选区域生成网络(Region Proposal Network, RPN),与分类网络 共享卷积层,提高检测准确率和检测速度。 R-CNN可以有效地组合图像的特征自主提取图像的深度特征,再进一步输入分类器中进行分类。其网络结构主要包括4个模块,分别为选择搜索获取区域模块,在图像中确定约1000-2000个候选框;图像特征提取模块对各个图像候选 区域使用深度网络提取特征;特征分类模块利用支持向量机对提取的特征进行分类;回归器微调模块,对属于某一特征的候选框,用回归器进一步微调,调整候选框的位置。
在R-CNN网络的基础上,FastR-CNN网络直接对整张图片卷积计算,所有的候选区域共享卷积计算;引入空间金字塔池化,为不同尺寸区域提取特征,实现端到端训练,微调所有卷积层的参数;引入感兴趣区域池化和多任务损失函数, 获得更高的训练测试速度和检测准确率。
Faster R-CNN算法主要包含RPN候选框提取模块和Fast R-CNN检测模块, RPN和FastR-CNN网络共用卷积层训练网络。本文采用的方法是使用残差网络 结构作为基础网络构建前五个卷积层,在第五层拿到卷积特征图后,再采用交替训练的方法同时共享训练两个卷积层网络,节省训练时间。训练主要分为四步:
Stepl:采用残差模型初始化参数,训练RPN网络。
Step2:利用RPN网络得到候选区域建议框,利用FastR-CNN单独训练检测 网络,由残差模型初始化参数。
Step3:使用检测网络初始化RPN的训练,保持共享卷积层不变,微调RPN 独有的卷积层。
Step4:保持共享卷积层不变,微调Fast R-CNN独有的卷积层,构成统一的 Faster R-CNN 网络。
3.2实验算法结构
本节实验内容利用FasterR-CNN的网络模型,在遥感数据图像上进行测试, 对遥感航拍数据中的飞机目标、舰船目标进行检测、识别。本节实验的算法设计结构如图3-15所示:
训练数据采用可扩展标记语言,用于记录训练数据集中图像中的目标位置、 目标类型等信息,方便计算机对训练数据进行读取和处理。将标记好的训练图像和生成的记录數据信息的标记文件读入网络模型,进行训练,得到训练好的网络模型用于对测试数据进行测试,识别图像中的目标。
实验训练数据和测试数据的样本分布如表3-4所示:
3.3实验结果
该方法在同一监视区域内,同时检测识别出多种不同目标,弥补了多目标检测算法不具备识别能力的缺陷,扩充了特定目标识别算法识别的目标种类单一的缺陷,该方法可以同时在监视区域内检测识别出多种目标,使用可见光和红外图像数据集中进行训练,最终在可见光和红外图像数据集的测试 实验中达到了 91.89%的平均识别准确率,以此验证了该算法在可以较好地反应 图像目标形状信息的可见、红外图像上的检测识别能力,满足自主监视技术的算法要求。
4课题总结
文主要研究了运动目标自主监视技术中目标检测、目标跟踪和目标识别算法,设计完成多目标检测跟踪软件界面和特定目标检测识别软件界面。研究分析基于人工智能算法的运动目标检测识别算法天基平台/汽车平台应用可行性。
本文提出的多目标自主检测识别算法将深度学习中Faster R-CNN网络算法应用在自主目标监视技术中,在本文实验所使用的可见和红外图像数据集中进行训练,并最终在该实验数据集的飞机、舰船、行人和汽车目标检测实验中达到了 91.89%的平均识别准确率,该方法具备在目标图像形状信息较好的可见光、红外图像上目标识别能力。该方法在地面实验硬件条件下,检测时间为0.7s,在具备 包含GPU处理模块的硬件信息处理平台,实时检测时间可以达到0.12s甚至0.06s, 满足自主视频监视的实时性要求。
参考文献:
[1]米立根.信息技术:现代社会的变形术[M].军事科学出版社,2003.
[2]郭嘉凯.人工智能时代,英特尔加速前行[J].软件和集成电路,2017(7):88-88.
[3]齐敏,李大健郝重阳.模式识别导论[M].清华大学出版社,2010.
[4]曹英楠,杨耀.机动车已成空气污染重要来源[J].生态经济,2018,9
[5]宋欣奕.道路交通运输安全研究内容界定分析[J].汽车实用技术,2017, 11: 87-89.
关键词:深度学习;机器视觉;目标检测
1背景
1.1自动驾驶背景及意义
隨着科学技术的快速发展,汽车逐渐成为人民群众日常生活中不可或缺的交通工具。汽车产业已经成为世界上最重要的行业之一,并成为很多国家的支柱产业。近年来中国经济稳步高质量发展,汽车保有量快速攀升。根据生态环境部发布的《中国机动车环境管理年报(2018)》显示,截至2017年末,机动车总计为29836.0万辆,其中汽车20816.0万辆叫汽车保有量的迅猛增加虽然给群众的日常生活带来了便利,但是却导致了交通拥堵、环境污染和交通事故。交通事故问题显得尤为重要,因为它往往伴随着人员伤亡。根据2017年底发布的《道路交通运输安全发展报告》显示,2016年交管部门接收的道路交通事故总计864.3 万起,同比上升16.5%。在人类驾驶员面对道路突发状况时,由于感知和操控 能力的局限性,导致人类驾驶员很难在短时间内识别道路状况并做出合理的决策 [3],这是造成交通事故的重要原因。
传统单目视觉目标识别技术主要依靠手工设计特征来构建模型,模型的质量取决于设计者的先验知识,因此这类算法的识别正确率不高。此外需要对不同类别的目标设计模型,因此这类算法的泛化能力不足。深度学习算法是机器学习研究领域的研究热点之一,深度学习算法为机器视觉带来了革命性的进步。由于该技术对数据学习能力很强,因此显著 提高了识别正确率。特别是训练得到的模型与输入数据相关,无需对各类别目标 进行模型构建,所以其泛化能力更好。综上所述,对基于深度学习的自动驾驶单目视觉目标识别关键技术研究具有重要意义。
1.2研究内容
本课题基于运动目标自主监视系统的算法研究,使用Python语言OpenCV 库,设计开发了动目标自主监视技术平台,验证了算法的可行性。并使用红外图像进行实验验证,最后分析比较了地面智能化处理服务器和星上资源环境的约束条件。地面智能化处理服务器集成了高密度GPU 模块,将单帧图片的处理能力提升到0.12s甚至0.06s,硬件架构、重量、功耗、 工作温度等均可具备星上工作的可能性,人工智能算法和硬件资源架构在星上约束条件下完成大数据智能化处理提供支持。
2识别算法基础
卷积神经网络(Convolutional Neural Network, CNN)是一种基于人类大脑认知原理的多层神经网络,通过计算机卷积核的卷积处理,将大数据量的图像目标 识别问题降维,从图像中学习,自主提取目标深度信息作为特征向量。最典型的卷积神经网络有卷积层、池化层、全连接层组成,在语音识别、自然语言处理、 计算机视觉、通用物体识别、人脸识别等领域均有很好的识别效果。卷积神经 网络的结构如图所示:
卷积层是使用卷积核来对输入图像进行卷积操作,将一个小的滑动窗口过滤图像各个小区域,得到各个区域的特征值,并将卷积组合输出,提取输入数据的特征。卷积核在训练过程中学习得到卷积核的参数值。大多数情况下,使用非线性激活函数来转换输出,使输出模型可以得到非线性特性,并且将输出限制在给定的范围内。
池化层是在卷积层之后,对输入的图像数据样本进行下采样,将下采样的结果作为池化层的输出结果,降低了数据维度,例如大小为20 X 20的原始图像, 使用4X4大小的采样窗口,最终将其下采样成一个大小为5x5的特征图,在实 际操作中,池化层下采样方法可以使用最大值下采样和平均值下采样两种方法。 在下采样过程中,即使丢失了一定的数据信息,但是从统计属性上来看,特征依然能够描述图像,并且在降低数据维度的同时,更能有效地避免过拟合现象。
全连接层出现在所有的卷积层和池化层之后,卷积层和池化层完成图像特征提取、降维等任务,全连接层则是将特征整合到一起,输出为一个值,完成分类任务。在卷积神经网络中,全连接层有两层或以上1 X4096卷全积结构,可以有效地解决非线性问题。但是全连接层参数众多,占整个网络总参数80%左右,影响网络工作效率,因此近年来ResNet和GoogleNet等性能优越的网络均采用全局平均池化(global average pooling, GAP)结构替代全连接层,以此融合图像深 度特征,具备更好的检测性能。
在提出典型的 CNN 算法之后,R-CNN、SPP-net> Fast R-CNN 和 Faster R- CNN网络结构相继提出,网络结构逐步改进,在图像处理任务中,高效准确地 实现了目标检测与识别。
3 目标自主监视算法实现
3.1特定目标识别算法原理
多目标自主识别算法采用深度学习算法识别每一帧图像中的多种目标。深度学习网络近年来迅速发展,在图像识别领域应用广泛,CNN、R-CNN、SPP-net> Fast R-CNN和Faster R-CNN网络结构相继提出,网络结构逐步改进,在图像处理任务中,高效准确地实现了目标检测与识别。本文将采用Faster R-CNN网络模型,设计多目标自主识别模型,FasterR-CNN网络从R-CNN网络上进一步改进而来,引入候选区域生成网络(Region Proposal Network, RPN),与分类网络 共享卷积层,提高检测准确率和检测速度。 R-CNN可以有效地组合图像的特征自主提取图像的深度特征,再进一步输入分类器中进行分类。其网络结构主要包括4个模块,分别为选择搜索获取区域模块,在图像中确定约1000-2000个候选框;图像特征提取模块对各个图像候选 区域使用深度网络提取特征;特征分类模块利用支持向量机对提取的特征进行分类;回归器微调模块,对属于某一特征的候选框,用回归器进一步微调,调整候选框的位置。
在R-CNN网络的基础上,FastR-CNN网络直接对整张图片卷积计算,所有的候选区域共享卷积计算;引入空间金字塔池化,为不同尺寸区域提取特征,实现端到端训练,微调所有卷积层的参数;引入感兴趣区域池化和多任务损失函数, 获得更高的训练测试速度和检测准确率。
Faster R-CNN算法主要包含RPN候选框提取模块和Fast R-CNN检测模块, RPN和FastR-CNN网络共用卷积层训练网络。本文采用的方法是使用残差网络 结构作为基础网络构建前五个卷积层,在第五层拿到卷积特征图后,再采用交替训练的方法同时共享训练两个卷积层网络,节省训练时间。训练主要分为四步:
Stepl:采用残差模型初始化参数,训练RPN网络。
Step2:利用RPN网络得到候选区域建议框,利用FastR-CNN单独训练检测 网络,由残差模型初始化参数。
Step3:使用检测网络初始化RPN的训练,保持共享卷积层不变,微调RPN 独有的卷积层。
Step4:保持共享卷积层不变,微调Fast R-CNN独有的卷积层,构成统一的 Faster R-CNN 网络。
3.2实验算法结构
本节实验内容利用FasterR-CNN的网络模型,在遥感数据图像上进行测试, 对遥感航拍数据中的飞机目标、舰船目标进行检测、识别。本节实验的算法设计结构如图3-15所示:
训练数据采用可扩展标记语言,用于记录训练数据集中图像中的目标位置、 目标类型等信息,方便计算机对训练数据进行读取和处理。将标记好的训练图像和生成的记录數据信息的标记文件读入网络模型,进行训练,得到训练好的网络模型用于对测试数据进行测试,识别图像中的目标。
实验训练数据和测试数据的样本分布如表3-4所示:
3.3实验结果
该方法在同一监视区域内,同时检测识别出多种不同目标,弥补了多目标检测算法不具备识别能力的缺陷,扩充了特定目标识别算法识别的目标种类单一的缺陷,该方法可以同时在监视区域内检测识别出多种目标,使用可见光和红外图像数据集中进行训练,最终在可见光和红外图像数据集的测试 实验中达到了 91.89%的平均识别准确率,以此验证了该算法在可以较好地反应 图像目标形状信息的可见、红外图像上的检测识别能力,满足自主监视技术的算法要求。
4课题总结
文主要研究了运动目标自主监视技术中目标检测、目标跟踪和目标识别算法,设计完成多目标检测跟踪软件界面和特定目标检测识别软件界面。研究分析基于人工智能算法的运动目标检测识别算法天基平台/汽车平台应用可行性。
本文提出的多目标自主检测识别算法将深度学习中Faster R-CNN网络算法应用在自主目标监视技术中,在本文实验所使用的可见和红外图像数据集中进行训练,并最终在该实验数据集的飞机、舰船、行人和汽车目标检测实验中达到了 91.89%的平均识别准确率,该方法具备在目标图像形状信息较好的可见光、红外图像上目标识别能力。该方法在地面实验硬件条件下,检测时间为0.7s,在具备 包含GPU处理模块的硬件信息处理平台,实时检测时间可以达到0.12s甚至0.06s, 满足自主视频监视的实时性要求。
参考文献:
[1]米立根.信息技术:现代社会的变形术[M].军事科学出版社,2003.
[2]郭嘉凯.人工智能时代,英特尔加速前行[J].软件和集成电路,2017(7):88-88.
[3]齐敏,李大健郝重阳.模式识别导论[M].清华大学出版社,2010.
[4]曹英楠,杨耀.机动车已成空气污染重要来源[J].生态经济,2018,9
[5]宋欣奕.道路交通运输安全研究内容界定分析[J].汽车实用技术,2017, 11: 87-89.