论文部分内容阅读
近年来,由于可以识别不提供任何训练样本的新类别的能力,零样本学习(Zero-Shot Learning,ZSL)技术成为计算机视觉和机器学习的一个热门研究领域。该技术通过seen类和unseen类共享的语义空间(如属性空间)从seen类到unseen类迁移知识,从而实现unseen类的识别。零样本学习技术可用于解决各种缺少训练样本的问题,例如物体识别、视频理解和自然语言处理等,具有重大研究意义和价值。本文基于深度神经网络技术和生成模型理论,设计了一个深度嵌入模型(De SAE)和一个深度生成模型(DE-VAE)来提高零样本学习的性能。针对传统线性嵌入模型只能学习多模态数据之间的线性映射,对复杂目标的表示能力有限,泛化能力差的问题,本文提出了一个De SAE模型,它是对传统线性语义自动编码器(Li SAE)的简单深度改造,通过人工神经网络技术引入了非线性因素。与Li SAE相比,使用De SAE模型学习到的映射函数能够更好地泛化到unseen类。在四个零样本学习基准数据集上的实验结果表明,De SAE显著提高了零样本学习的性能。De SAE与Li SAE的具体性能差异如下,当任务为ZSL时:42.1%vs 33.3%(CUB)、43.3%vs 40.3%(SUN)、53.8%vs 53.0%(AWA1)、54.7%vs 54.1%(AWA2);当任务为GZSL时:20.1%vs 13.6%(CUB)、15.3%vs 11.8%(SUN)、10.6%vs 3.5%(AWA1)、11.6%vs 2.2%(AWA2).针对基于嵌入模型的方法无法从根本上缓解零样本学习中的域偏移和枢纽点问题,本文将深度嵌入模型和生成模型的优势相结合,提出了一个DE-VAE模型。DE-VAE通过学习一个图像特征和类嵌入共享的潜层空间来帮助分类。首先,使用深度嵌入网络学习从语义空间到视觉特征空间的映射。然后,将从类嵌入映射得到的特征和原始图像特征输入到改进过的变分自动编码器(Variational Autoencoder,VAE)中实现跨模态对齐。最后,使用训练好的深度嵌入网络和VAE的编码器将seen类和unseen类的图像特征和类嵌入转化为潜层特征来进行Softmax分类器的训练和测试。通过生成unseen类的潜层特征,DE-VAE将零样本学习转化为一个传统的分类任务,从根本上缓解了领域偏移和枢纽点问题,在四个零样本学习基准数据集上均实现了最先进的性能。DE-VAE与代表目前最先进技术的CADA-VAE的性能差异如下,当任务为ZSL时:63.1%vs 60.6%(CUB)、64.0%vs 62.8%(SUN)、69.4%vs 65.0%(AWA1)、69.3%vs 64.3%(AWA2);当任务为GZSL时:54.3%vs 52.5%(CUB)、40.9%vs 39.9%(SUN)、66.9%vs 63.6%(AWA1)、67.4%vs 63.9%(AWA2).本文基于深度学习技术和生成模型理论提出的深度嵌入模型De SAE与深度生成模型DE-VAE,有效缓解了零样本学习中会遇到的域偏移和枢纽点问题,显著提高了零样本识别的精度。