论文部分内容阅读
随着云计算与大数据技术的快速发展,互联网数据呈现爆发增长的趋势。日常使用的新闻网站、社交软件及应用软件,每时每刻都有海量数据生成,这些数据的存在形式可以是文本、图像、视频、音频等,本文统称这些不同类型的数据为多模态数据。在大数据时代下,传统的单模态检索显然无法满足大量且混合的多模态数据的相互检索,为了更有效地根据用户的兴趣搜索出相应的信息,需要研究出速度快,准确度高的跨模态检索方法,针对互联网中存在的多模态数据做高效的检索。对跨模态数据检索的研究逐渐受到许多学者和研究人员的关注。本文利用数据的标签信息学习数据的底层特征,同时保证高层的语义信息在学习过程中不会丢失,通过线性映射或非线性映射将不同模态的数据投影到统一的特征空间中,标签信息具有指导特征学习和挖掘不同模态数据关联性的作用。基于监督学习对模态间和模态内的语义一致性进行学习,能够充分挖掘高层的语义信息,保持数据的语义关联性。对跨模态检索技术进行了深入的学习和研究之后,本文提出了三种基于监督学习的跨模态检索方法:1、为了提高特征的线性区分能力,避免哈希码量化过程产生的误差,提出了一种基于有监督核函数的离散跨模态哈希方法(Supervised Kernel Function for Discrete Cross-modal Hashing),简称SKFDCH。通过核函数将每个模态的数据非线性地映射到不同的高维空间中,解决数据在低维空间的线性不可分问题;基于矩阵分解的思想,学习每个模态的潜语义哈希空间,然后将不同维度的数据线性转换为各模态特定的哈希码,保留不同模态的数据所要表达的语义信息;结合各模态包含的语义信息和标签信息定义了一个语义亲和矩阵,在各模态特定的潜语义哈希空间对哈希码的相似性建模,获取语义区分性更强的哈希码。本文在算法优化阶段采取了一种离散的求解算法直接学习哈希码,有效避免了量化误差。2、为了有效减小模态差异,同时保留模态特定的语义信息,提出了一种基于生成性对抗网络的模态一致性跨模态检索方法(Modality Consistent Generative Adversarial Network for Cross-modal Retrieval),简称MCGAN。通过生成性对抗网络将跨模态的检索任务近似转换为单模态检索任务,有效保留了图像模态的语义信息;然后设计了一个模态一致性嵌入网络将图像特征和生成的特征投影到公共的语义空间中,利用标签信息对模态间和模态内的特征进行相似性的建模;定义了标签分类损失函数和类中心损失函数对网络参数进行训练和更新。最后获得语义区分性较强的实值特征,有效提高图文互检的准确性。3、为了减小模态的差异性,充分挖掘模态间和模态内的语义相似性,减小数据的存储空间,同时减少有用信息的丢失,提出了一种基于生成性对抗网络的语义关联跨模态哈希方法(Semantic Correlation Generative Adversarial Network for Cross-modal Hashing),简称SCGAN。该方法将生成性对抗网络与哈希学习相结合,通过生成性对抗网络将文本特征映射到图像的特征空间中,有效减小两个模态的差异性;然后将生成的特征和真实图像特征通过语义关联哈希网络映射到一个汉明空间中,通过符号函数得到哈希码;最后利用标签信息挖掘数据的语义相关性,定义了三个损失函数帮助网络训练,其中标签分类损失函数对相同模态的哈希特征相似性进行建模,阈值判别损失函数对模态间的哈希特征相似性进行建模,哈希度量损失函数有效减小哈希码量化过程中产生的误差。在两个常用于跨模态检索研究的数据集Wikipedia和NUS-WIDE上进行了相关实验,与一些最近流行的方法在同等的实验设置下进行的对比实验证明了所提出的三个方法具有一定的有效性和可行性。