论文部分内容阅读
近年来深度学习技术不断发展,有力的推动了图像分类任务在实际生活中的广泛应用。同时,随着图像分类理论体系的日益成熟,图像分类研究己取得许多突破,朝着多场景、大范围的方向进行。不过,现今图像分类工作大多集中在通用分类,比如区分人、车等多种不相关类别。在细粒度图像分类,即对同一大类下的多个不同子类进行识别方面的研究探索还很有限,逐渐成为当下计算机视觉及其应用中的研究热点。本文着手于犬种目标的精细化图像分类,研究基于深度学习的犬种识别算法及应用。针对犬种图像中不同种类具有一定相似性与同种类间具有较大差异性等问题,从目标检测和特征融合的角度来研究犬种图像的精细化分类算法,致力于提高对多个犬种种类的识别准确度并实现简要的应用功能。主要研究工作如下:1、在基于深度学习的通用图像分类研究的基础上,提出粗粒度层面上的犬种识别。结合迁移学习技术与模型融合的设计,首先采用四种常用的卷积神经网络模型分别对随机抽取的部分图片进行特征提取,选取其中表现最佳的两种模型Inception_v3以及Resnet152_v1进行双模型融合,将得到的融合网络用于犬种图像的迁移学习训练。然后进一步考虑将数据集预先通过YOLO目标检测算法,定位到前景目标区域后再送入融合网络,减少背景信息的干扰。最后针对120类犬种图片,训练得到的网络模型学习精度可达93.02%。在测试集上的分类准确率达到73.2%。2、为了提高犬种图像的分类精度,本文进一步从细粒度层面出发,通过多尺度特征融合实现犬种分类。利用特征金字塔结构融合浅层与深层特征,生成所有尺度上的强语义信息,定位具有判别性的细节目标;接着,挑选出最能判别图像真实类别的三张区域图,与图像的全局特征融合后共同判断犬种种类。该方法的关键在于可以通过端到端的网络架构自动定位部件级别并获取相应的特征表示,减少了高成本的人工标注的需要。网络训练完成后在测试集上检测的分类准确率达到了83.5%,表明该方法能够在不同子类之间发现更多细节信息,实现较高的识别准确性。3、为验证算法的可用性,最后在PC端设计了基于本文细粒度犬种识别算法的识图有声读物,实现了犬种图像识别的简单应用。具体来说,输入一张待测图片,在准确识别图中犬种名称的基础上,智能连接到相应数据库检索到对应的种类介绍,并通过语音合成有声播报,即可完成对应犬种的科普阅读,实现了智能化的犬种自动分类介绍,这对动物科普,乃至濒临动物的保护宣传等都具有延展性的深远意义。