论文部分内容阅读
在真实图像的识别任务中,待识别的图像通常包含多个可辨别物体以及众多视觉信息,因此迫切需要给图像标注多个标签以准确描述图像的属性。多标签图像分类任务要求算法能够准确地识别图像所含对象,精确地给图像分配相关联的标签,亦即要求算法能高效率地从图中提取视觉信息,在找全图像所含标签(查全率)的同时仍需确保判定的标签皆为关联(查准率)。深层的卷积神经网络能够从输入图像提取大量精细特征,同时拟合从高维特征空间到输出空间的复杂映射,这些优点使它在解决多标签图像分类问题上展现出巨大的潜力。然而深层网络在图像分类中达到的高精度,很大程度依靠于大量可学习网络参数的使用以及过多计算机存储及计算资源的占用,它对这两者的依赖一方面增大了利用现有的计算机硬件水平发展更大规模神经网络处理更复杂图像分类任务的难度,另一方面制约了深层神经网络在计算资源有限的低端设备上的应用。为了降低深层卷积神经网络的参数量,在有限的计算资源下充分利用网络的图像特征提取能力以及数据拟合能力,提高多标签图像分类的查准率与查全率,本文提出了基于张量环分解(Tensor Ring decomposition)的神经网络张量化算法,以及基于张量化神经网络的多标签图像分类算法。本文的主要内容如下:1)提出基于张量环分解的全连接神经网络张量化算法,利用全连接的权重张量核之间的多线性变换以及权重张量核与网络输入张量之间的线性变换替换全连接层原有的权重矩阵对输入向量的线性映射,完成全连接层的张量化,使网络能够以较少的参数量达到颇具竞争力的分类精度。2)提出利用张量化神经网络解决多标签分类问题的算法,该算法在权重张量核上施加结构限制,使网络在提取决定每个标签的关键特征的同时,也提取对所有标签都有分类促进作用的特征。本文的理论分析表明,提出的算法可使网络层对每个标签所需特征的提取都由不同的潜在的Tensor Train形式权重完成,提高了网络提取多标签图像特征的性能。3)在多个常用的多标签图像分类数据集上进行了实验,详细比较了本文算法与近年提出的先进算法在性能上的差异,并使用多个性能评价指标客观分析实验结果。结果表明本文的张量化算法在显著降低网络参数数量的同时仍能使网络保持高分类精度;而相较于主流算法,本文的多标签图像分类算法有更高的标签查准率与查全率,达到了更高的多标签分类性能。