论文部分内容阅读
多媒体技术和互联网的迅猛发展使得图像数据量呈爆炸式增长,这为图像检索带来巨大的挑战。传统基于文本的图像检索算法虽然准确率高,但需要人工标注图像耗时耗力,且无法满足海量图像的检索需求。自动图像标注算法虽然快速提高图像的检索效率,但标注准确率有待提升。ML-GCN(Multi-Label Graph Convolutional Networks,多标签图卷积网络)具有强大的建模能力和对非欧氏距离计算能力,可以有效的对多标签关联关系做运算,鉴于此,本文基于ML-GCN模型,将图像自动标注问题转化为图像多标签分类问题。本文的主要研究工作如下:针对图像单标签分类中存在信息丢失问题以及注意力机制仅使用图像区域之间的局部相关性问题,本文基于ML-GCN网络模型,利用多标签之间的依赖性,提出了改进ML-GCN的图像自动标注算法。该算法主要包括两个步骤,第一步将每个标签节点用词嵌入向量表示,使用标签相关矩阵构造的有向图为标签间依赖性建模,利用映射函数将类别标记映射为对应类别的分类器;第二步将卷积神经网络提取的图像特征应用于类别分类器,获得图像标签。与Resnet网络模型相比,Resnext网络计算量少、需要调节较少超参数。与ReLU激活函数相比,mish激活函数具有训练稳定性好、平均准确率高、峰值准确率高等优点。鉴于此,本文使用Resnext101残差网络提取图像特征,mish作为激活函数提出了改进的ML-GCN图像标注算法,在Voc2007数据集和coco数据集的实验结果表明,与ML-GCN、CNN-RNN、RLSD、DenseNet121、HCP等方法相比,本文算法有效提高了平均准确率。针对训练样本不平衡导致低频词标注准确率降低的问题,本文引入低频特征提取通道,提出了基于双通道的改进ML-GCN标注算法。该算法融合低频提取特征与图像全局特征,提高低频词在样本中的比例,将融合后的特征应用于改进的ML-GCN标签分类器中。在voc2012数据集的实验结果表明,与改进的ML-GCN方法相比,本文算法有效提高了平均准确率及低频词的标注准确率。