论文部分内容阅读
图像识别指利用计算机对图像信息进行处理和分析,从而对图像中包含的目标类别进行划分。图像的识别具有非常广泛的应用,如指纹识别、人脸识别和交通标志识别等。现有的卷积神经网络图像识别方法,由于其具有强大的特征学习能力,在识别准确率上表现优异。但是,该类方法是基于数据驱动,存在样本需求量大,训练时间长,调参困难等缺陷。本论文主要研究并实现了一种融合语义和胶囊网络(Capsule Network,CapsNet)的图像识别方法。图像语义是指视觉接收图像信号形成的结构化知识描述,包含一系列可理解、可解释的信息。该方法通过融合图像的语义和CapsNet,提高训练数据的利用率,可在较少样本集训练的情况下,达到较好的识别效果。该方法可以有效缓解深度学习模型依赖大量训练样本的问题。具体工作内容如下:(1)本文提出一种基于语义的识别网络,模拟人对图像中不同类别目标的认知过程:依据不同类别的目标具有其特定的知识描述――语义,对目标进行分类识别。不同的语义之间具有一定的层级关系,图像中语义往往由若干子语义组成,子语义可以继续不断划分,直到不能拆解时称为语义基元,本文构建语义网络来描述语义基元与语义的关系,通过对语义基元的识别,以及特定语义中包含不同语义基元的组合规律,进而识别特定的目标。然而,由于语义可描述特征基于人类知识,对细节刻画能力有限,且自然环境下获取的图像存在遮挡、光照不足等各种不同程度的干扰,图像中可提取的语义特征有限,导致单独使用语义网络的识别效果不理想。本文又通过设计损失函数融合语义网络和胶囊网络,提高了数据的利用率,增强细节描述能力,使得在使用小样本数据训练的情况下,获得具有较好的识别性能,仿真实验结果验证了这一优势。(2)本文对Hinton提出的CapsNet中动态路由算法进行了分析与研究,设计了三种改进的算法:基于meanshift改进的动态路由算法、top-K路由算法、自适应学习聚类算法。本文就改进的算法,分别在MNIST数据集上进行了对比实验。实验结果表明三种算法都取得了优于动态路由算法三次迭代的识别效果。本文还进一步对其中效果最优的自适应学习聚类算法在CIFAR10和GTSRB上进行了仿真实验,实验结果表明本文改进后的自适应学习聚类算法,克服了动态路由算法计算复杂度高及网络扩展性差的问题,具有参数少、更广泛的适用性和可扩展性的优点。