论文部分内容阅读
改革开放以来,我国水果种植面积不断扩大,水果产量不断提升,然而,过去大部分的水果采摘作业基本依靠人工,而从事农业生产的人员又在不断缩减,为应对农业生产中人力不足的必然发展趋势,开发具有识别与定位功能的采摘机器人符合社会发展需要,将给社会发展带来巨大的经济效益和广阔的市场前景。近年来,随着深度学习的迅速发展和崛起,尤其其在视觉方向取得了巨大的成就,相比传统的识别算法,深度学习在对目标识别的特征描述上能力更强。因此,开发基于深度学习算法视觉识别功能的采摘机器人具有重大意义。首先,本文基于当前先进的深度学习算法进行实验探究,提出了基于卷积神经网络的水果图像分类识别算法,主要参照经典的卷积神经网络模型LeNet-5结构,提出新的卷积神经网络结构并对苹果、梨、橙子、橘子、桃子五种水果进行分类识别,该模型构建了一个输入层、两个卷积层、两个池化层、两个全连接层和一个输出层。实验结果表明,所提出的卷积神经网络结构不仅在数据集上取得了96.88%的识别准确率,相比原始的LeNet-5模型获得的准确率更高,收敛速度更快。其次,本文对水果图像识别又进行了更为深入的研究,基于深度学习目标检测算法,为论证算法的可行性,选取苹果图像作为具体的研究对象,而当前主流的深度学习目标检测算法有Faster-RCNN、YOLO、SSD,本文的检测算法采用基于区域建议的Faster-RCNN,通过该算法来对图像中的苹果进行识别与定位研究。为应对自然场景下苹果目标可能出现的遮挡、重叠、逆光、表面光照不均等情况,在采集图像时,拍摄了包含不同尺寸大小、数量以及不同光照角度的苹果图像,通过选取本文提出的改进的LeNet-5和经典的卷积神经网络VGG16以及ResNet101为基础提取网络并进行建模对比,探讨不同框架模型下的检测效果,通过多次设定不同的超参数组合并进行模型的精度对比,以此来得到了合适的超参数组合,最终在基于ResNet101的Faster-RCNN苹果检测模型上得到了90.91%的平均检测精度,而在以本文提出的改进LeNet-5模型上获得的检测精度太低,又相比以VGG16为基础提取网络的模型,基于ResNet101的模型在平均检测精度上得到了明显的提升,虽然在检测速度上逊色于VGG16,检测一幅图像的时间为0.39秒,但已经达到了实时性的要求,并且得到了98.96%的查全率和85.74%的召回率,通过最后的实验测试表明,该模型可用于对树上苹果的检测,验证了算法的可行性,也为研究检测其他种类的水果提供了经验。