论文部分内容阅读
图像的特征理解与语义表达是一门涉及了计算机视觉、自然语言处理、机器学习等多学科的交叉学科,是计算机视觉与图像处理等领域一直关注的重点以及难点,同时也是计算机视觉的智能化的重要组成部分,可以服务于生活与工业的各个领域,具有非常重要的研究意义。随着深度神经网络的发展,本文将进行基于深度学习的图像特征理解与语义表达的相关研究。图像的特征理解与语义表达以深度神经网络作为工具,构建从图像的基础视觉特征映射到高层次语义描述的网络模型,针对复杂的目标图像,得到一个基于图像语义内容的自然语言描述。这样就可以将图像中包含的语义信息翻译成自然语言文本。本文关注其中三个关键问题:(1)如何学习图像中语义区域之间的视觉关系,理解图像中目标之间的关系,解决无法有效识别目标之间复杂的视觉关系问题;(2)如何学习目标区域的自然语言描述生成模型,解决单一模块生成的语言描述不准确、不丰富的问题;(3)如何融合自然语言文本的语义信息,生成相关视觉内容,解决语言文本与生成图像之间的语义信息不一致以及细节丢失问题。针对上述问题,本论文的主要研究工作和创新成果包括:1)提出了一种结合空间位置、上下文信息以及外观特征的视觉关系识别网络。本文所提出的网络结构中包含特有的“空间-上下文-外观”模块,该模块可以在主语、谓语、宾语的视觉特征学习阶段有效的利用相对空间位置关系进行上下文信息交互,进行更深入全面的特征学习。同时,类比卷积与反卷积操作,本文提出反感兴趣区域池化操作可以解决局部区域特征图映射到全局空间的问题。另外,针对大规模的有噪声、歧义的视觉关系标签数据,本文提出了一种全新的类内多层语义标签树。利用标注的类别标签之间存在的潜在关系,对已有标签进行语义聚类、词性分析等操作,在原始标签的基础上,获得更高层次的语义标签,再利用这些高层语义标签对目标分类进行修正与补充,增强模型训练效果,解决无法利用粗糙标签进行大规模视觉关系识别的问题。2)提出了一种基于上下文信息融合以及语言属性监督的密集型图像描述生成网络。本文所提出的密集型图像描述生成网络包括基于非局部个体信息融合模块以及基于语言属性损失函数的上下文信息融合模块,解决了目标区域的描述文本不够生动、丰富的问题。所提出的基于非局部均值算法的个体特征提取模块利用目标区域之间的相关性对目标区域进行建模,学习图像内区域之间的相似性图模型,利用多个目标之间的上下文信息,对目标描述语言生成模型进行增强。同时,针对目标的描述文本太过单一、不够丰富生动的问题,介绍了一种全新的多层级语言属性损失函数。这样,语言文本生成模型(LSTM网络)除了传统语句级(sentence-level)监督以外,还会受到额外的单词级(word-level)或者语言属性级(attribute-level)的监督,使原有的单一的语言生成模型,变成一个多层级从粗到细的语言生成网络。3)提出了一种基于自然语言文本进行高清图像合成的语义解析生成对抗网络。本文所提出的语义解析生成对抗网络利用Siamese结构,蒸馏学习表达形式各异的自然语言文本的共同语义信息,通过对比度损失函数保持语言文本与生成图像之间的语义一致性,解决了因语言文本表达形式不同,生成图像出现语义偏差的问题。而且为了解决Siamese结构可能会忽略语义多样性的问题,提出了一种全新的语义条件批量归一化算法。利用个体语言文本的语义特征,对图像生成器的视觉特征图的批量归一化参数进行修正,增强视觉语义嵌入,解决文本生成高清图像中的生成图像难以包含文本细节、保持图像语义多样性的问题。