论文部分内容阅读
【摘 要】 本文针对图像识别问题,首先,从图像处理流程着手,通过收集原始图像,先对图像进行预处理,加强图像的特征,再根据图像的差异,结合形状、颜色与纹理等全局特征和局部特征的提取方法,提取主要特征。其次,通过对YOLO算法进行研究,构建了基于YOLO算法的目标分类检测算法模型。
【关键词】 图像识别 YOLO算法 TensorFlow 目标检测
1. 引言
当今社会,图像已经成为信息传输的主要载体,它在人类活动中发挥着巨大的作用。生活中,人们无时无刻都在接收着图像信息。为了满足人们日益增长的美好生活需要,图像识别技术应运而生。本文主要利用YOLO算法对图像中的目标进行特征提取分类识别,可以实现图像特征提取和分类识别的自动化,摒弃了传统图像识别过程中依靠手工标注图像特征的方法,YOLO算法大幅提高了图像识别的识别速度和识别准确率。
2. YOLO算法理论
YOLO算法模型借鉴了GoogLeNet算法网络结构,首先将输入图像划分为若干格子,每个格子负责检测中心位置坐标位于该格子中的目标物体,包括预测出含目标物体的边界框信息及目标物体类别的概率信息[1]。因此,输入图像只要经过一次检测,就会得到图像中所有物体的位置及其所属类别的概率,由于每个格子只能预测两个边框信息和一种物体类别,因此会引起相邻目标间检测的准确率下降。YOLO算法基础版的检测速度可达45FPS的实时检测,快速版检测速度可高达155FPS,并且背景误差率低[2]。
与其它目标检测识别方法将目标检测划分成区域预测和类别预测等多个流程相比,YOLO将区域预测和类别预测整合在一个网络中,以提高检测速率[3]。YOLO的网络结构类似于Google Net,网络中卷积层用于特征提取,全连接层用于输出类别分数以及目标所在位置。网络系统可以读取任何大小的图像,并反馈到网络中。
YOLO将输入的图像划分为个格子,每个格子会预测是否有物体的中心位置坐标落入格子内部。如果某个物体的中心位置坐标落入了某个格子,那么这个格子就负责识别出这个物体。如图(2-3)所示,图中人的中心坐标落在了第4行,第4列的格子中,那么这个格子就负责预测这个人。
格子会预测B个边界框,以向量的形式给出这些边界框的信息。边界框的信息包括了位置信息,置信度以及物体的类别信息。置信度代表了当前格子包含一个目标的概率。边界框的置信度公式为:
当有物体落入格子中时取1,没有物体落入格子中时取0。是预测边界框和实际边界框的交并比:
是预测边界框,是实际边界框,area表示面积边。每一个单元格还要给出预测出C个类别的概率值,其表征的是由该单元格负责预测的边界框,其目标属于各个类别的概率。
3.分析
在tensorflow-gpu环境下,基于构建的模型,用数据集的16551张图像对网络进行训练,之后分别用200张图像进行分类识别测试,运行时间在60ms-70ms之间,测试结果如下:
其中,100张图片属于比较简单的环境,其中99张识别准确,有3张物体并没有识别完全,但是仅仅只是局部物体。另外100张图片比较复杂,有2张图片存在误识别,除此之外,有超过10张图片存在未识别完全的情况。
实验结果表明,本文构建的图像分类识别模型对图像识别的效率和准确率都比较高,运行时间在60ms-70ms之间,识别准确率达到了98%。
【參考文献】
[1] 戴进,刘振宇. 基于深度学习的图像识别算法研究的综述[D]. 计算机产品与流通, 2018.
[2] 衣世东. 基于深度学习的图像识别算法研究[D]. 信息工程大学, 2018.
[3] 周瑶. 基于机器视觉与黄板诱导的有翅昆虫统计识别系统的研究与实现[D]. 重庆大学, 2017.
[4] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Las Vegas, NV , 2016: 779-788.
【关键词】 图像识别 YOLO算法 TensorFlow 目标检测
1. 引言
当今社会,图像已经成为信息传输的主要载体,它在人类活动中发挥着巨大的作用。生活中,人们无时无刻都在接收着图像信息。为了满足人们日益增长的美好生活需要,图像识别技术应运而生。本文主要利用YOLO算法对图像中的目标进行特征提取分类识别,可以实现图像特征提取和分类识别的自动化,摒弃了传统图像识别过程中依靠手工标注图像特征的方法,YOLO算法大幅提高了图像识别的识别速度和识别准确率。
2. YOLO算法理论
YOLO算法模型借鉴了GoogLeNet算法网络结构,首先将输入图像划分为若干格子,每个格子负责检测中心位置坐标位于该格子中的目标物体,包括预测出含目标物体的边界框信息及目标物体类别的概率信息[1]。因此,输入图像只要经过一次检测,就会得到图像中所有物体的位置及其所属类别的概率,由于每个格子只能预测两个边框信息和一种物体类别,因此会引起相邻目标间检测的准确率下降。YOLO算法基础版的检测速度可达45FPS的实时检测,快速版检测速度可高达155FPS,并且背景误差率低[2]。
与其它目标检测识别方法将目标检测划分成区域预测和类别预测等多个流程相比,YOLO将区域预测和类别预测整合在一个网络中,以提高检测速率[3]。YOLO的网络结构类似于Google Net,网络中卷积层用于特征提取,全连接层用于输出类别分数以及目标所在位置。网络系统可以读取任何大小的图像,并反馈到网络中。
YOLO将输入的图像划分为个格子,每个格子会预测是否有物体的中心位置坐标落入格子内部。如果某个物体的中心位置坐标落入了某个格子,那么这个格子就负责识别出这个物体。如图(2-3)所示,图中人的中心坐标落在了第4行,第4列的格子中,那么这个格子就负责预测这个人。
格子会预测B个边界框,以向量的形式给出这些边界框的信息。边界框的信息包括了位置信息,置信度以及物体的类别信息。置信度代表了当前格子包含一个目标的概率。边界框的置信度公式为:
当有物体落入格子中时取1,没有物体落入格子中时取0。是预测边界框和实际边界框的交并比:
是预测边界框,是实际边界框,area表示面积边。每一个单元格还要给出预测出C个类别的概率值,其表征的是由该单元格负责预测的边界框,其目标属于各个类别的概率。
3.分析
在tensorflow-gpu环境下,基于构建的模型,用数据集的16551张图像对网络进行训练,之后分别用200张图像进行分类识别测试,运行时间在60ms-70ms之间,测试结果如下:
其中,100张图片属于比较简单的环境,其中99张识别准确,有3张物体并没有识别完全,但是仅仅只是局部物体。另外100张图片比较复杂,有2张图片存在误识别,除此之外,有超过10张图片存在未识别完全的情况。
实验结果表明,本文构建的图像分类识别模型对图像识别的效率和准确率都比较高,运行时间在60ms-70ms之间,识别准确率达到了98%。
【參考文献】
[1] 戴进,刘振宇. 基于深度学习的图像识别算法研究的综述[D]. 计算机产品与流通, 2018.
[2] 衣世东. 基于深度学习的图像识别算法研究[D]. 信息工程大学, 2018.
[3] 周瑶. 基于机器视觉与黄板诱导的有翅昆虫统计识别系统的研究与实现[D]. 重庆大学, 2017.
[4] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Las Vegas, NV , 2016: 779-788.