论文部分内容阅读
为提升曝光不均时的猕猴桃图像识别效果,和解决果实毗邻重叠及被树枝树叶遮挡等导致的现有检测模型实用性差、定位不准确等困难,本研究使用市面上消费级的RGB-D相机采集多源图像,根据猕猴桃在多源图像下的不同特征,改进传统卷积神经网络,提出融合多源信息的猕猴桃检测与定位方法,进一步提升猕猴桃在复杂多变果园环境下的检测和定位准确率和鲁棒性。主要研究内容与结论如下:(1)构建对齐的多源猕猴桃数据集。针对猕猴桃栽培模式,采用对猕猴桃底部进行成像的方式获取猕猴桃果实图像,对Real Sense D435、Kinect V2相机的SDK进行二次开发,在采收期获取对齐的彩色、红外、深度等多源猕猴桃图像。对获取到的猕猴桃数据集图像以亮度变换、对比度增强与减弱等方法进行扩增。先手工标注彩色图像中的猕猴桃,再映射至对齐的红外图,以7:3比例分成训练集和测试集。(2)基于多源信息融合的猕猴桃检测算法研究。本文选择以VGG16为特征提取网络的Faster R-CNN网络作为基础网络,设计两种融合模型。一种是修改网络输入层和第一个卷积层使其可以同时接受对齐后的彩色图和红外图(图像融合模型);另一种使用两个VGG16模型分别对彩色图和红外图进行卷积,再将两者输出的特征图并联(特征融合模型)。对所有网络使用Image Net预训练模型参数进行初始化,并以端对端的方式采取随机梯度下降及反向传播算法进行训练。(3)基于多源信息融合的猕猴桃检测模型试验结果与分析。为了评估基于多源信息融合的猕猴桃检测模型的结果,本章在测试集上对训练出的图像融合模型、特征融合模型、单彩色模型、单红外模型进行了验证。结果表明,基于Kinect V2的图像融合模型的平均精度和总识别率最高,分别为91.4%和91.8%;相比单彩色模型分别提升了2.1%和2.2%;检测速度为0.131 s/image,基本和未融合模型的检测速度相当。基于Real Sense D435的图像融合模型的平均精度和总识别率最高,分别为91.4%和91.9%,相比单彩色模型分别提升了1.3%和1.7%;检测结果基本和Kinect V2图像融合模型相当;检测速度为0.139 s/image,检测速度基本和未融合模型相当。融合后的模型检测速度基本与未融合模型一致,但在果实的整体检测性能和毗邻、遮挡等困难果实的识别率上均有很大的提升。(4)基于RGB-D相机的猕猴桃定位方法研究。本章通过对比了Kinect V2相机和Real Sense D435相机在不同距离的定位精度,得出Real Sense D435相机精准更高,在距离果实1m左右处(采摘机器人的相机位置)可以获得最小的1 mm深度误差。使用张正友算法对Real Sense D435相机进行标定,获取Real Sense D435相机准确的内参、外参。通过Python编程获取对齐后彩色图像上的果实检测矩形框中心点,结合深度图上相同位置坐标的深度值,坐标转换后获取猕猴桃中心点的三维位置坐标。最后设计实验验证,结果表明Real Sense D435定位1m左右的猕猴桃X轴平均误差为4.1 mm,Y轴平均误差为3.8 mm,Z轴平均误差为3.1 mm。综上所述,本文针对目前猕猴桃检测模型普遍使用单源图像,对果实毗邻、树枝枝干遮挡等难以检测的果实以及猕猴桃在曝光不均下的检测率低和定位不准的问题,提出基于多源信息融合的猕猴桃检测与定位方法。其中,图像融合模型不仅提高猕猴桃整体检测性能及对困难果实的识别率,检测速度基本与未融合模型相当,且本文定位方法的误差远小于猕猴桃机器手臂设计要求。该研究证实了多源信息融合可以进一步提高猕猴桃检测模型在复杂自然环境下的鲁棒性和准确率,从而为推动猕猴桃产业机械化、自动化提供了技术支撑。