论文部分内容阅读
随着网络的发展和智能上网设备的普及,互联网上的数据发生了极大的改变。多媒体数据的显著增长使得进行不同类型媒体数据之间相互检索的必要性日益凸显,跨媒体检索因此受到了更为广泛的关注。为了实现跨媒体数据间的相互检索,需要对不同模态的数据进行相似性的度量,深入挖掘跨媒体数据间的关联关系,从而可以更加灵活地对不同模态的多媒体数据进行比较、分析和整合,实现信息的获取和加工。然而,不同模态数据间的相似性比较面临着如下两方面的挑战:一方面不同模态数据的表示方式差异很大,提取的特征处于异构空间,从而导致直接应用针对同模态或忽略模态间差异性的传统检索方法失效;另一方面,对跨媒体数据语义的抽象往往会损失信息,共同出现的不同媒体类型之间的语义也并不完全重合,有时甚至只存在隐含或松散的关联。这两方面的挑战通常被称为“异构鸿沟”和“语义鸿沟”。为了应对这两个方面的挑战,需要对跨媒体数据间关联关系进行深度挖掘和对跨媒体数据相似性度量进行系统地建模。 本文利用常和跨媒体数据一起出现的附加信息,在跨媒体中引入组结构这一先验,对传统图文对齐或图文成对出现的跨媒体数据分析方法进行补充。对跨媒体数据中组结构描述如下:在现实生活中,一般使用不同类型的跨媒体数据来描述高层概念或语义,如图像及标注单词或图像及其描述文本。这些跨媒体数据往往具有附加信息,可被用于构造跨媒体数据的组结构,如同属一个类别的图像和文本数据可构成一个组(例如描述动物的所有图像和文本),或者一篇多媒体文档中所有句子及其描述图像可组成一个组,或者社交网站中同一个社区的图像和标识文字可组成一个组。将组结构先验引入跨媒体关联挖掘与检索后,本文提出了一系列新的跨模态检索算法。这些算法都采用数据驱动的监督式学习机制,学习和挖掘联合出现的跨模态数据中所隐含的关联关系。具体而言,本文提出的方法和涉及的主要内容有: 提出一种结构性监督耦合字典学习的跨模态检索方法(SliM2)。SliM2引入了多模态耦合字典学习技术来处理不同于“单一模态”数据的“多模态”数据,对各个模态间的关联,用稀疏系数之间的线性映射来表示。通过多模态耦合字典学习,不同模态数据间的差异性被有效地表达在不同的字典中,稀疏系数间的关联关系揭示了模态间的关联关系。SliM2的创新性主要体现在两个方面:一是联合学习各个模态字典和多模态稀疏系数间的线性映射;二是通过一个混合范数((l)1/(l)2-norm)发掘属于同一类的同一模态数据的共享结构。 提出一个监督式多模态相互一致性主题增强模型(M3R),用于建模多模态数据间的隐含关联关系及不同模态间的协同和互补机制。M3R通过多模态协同挖掘模态间一致性主题,构建了一个跨模态联合概率图模型。M3R能够同时完成以下两项学习任务:一是各个模态隐含主题的学习(文本模态或图像模态);二是对表达同一语义的各模态间的一致性主题的发现和增强。M3R对表达同一高层语义的不同模态数据(构成一个跨模态超文档)所蕴含的主题进行增强,挖掘模态间一致性主题。同时,为了进一步加强所学隐含主题表达的判别能力,M3R将类别信息编码到图模型中。 提出一种基于联合映射的结构性深度跨模态检索算法(DEG),利用深度学习技术可缩小底层特征和高层语义之间的“语义鸿沟”的特性,在用深度学习特征代替传统特征的基础上,建模长文本中句子和图像之间的对应关系。DEG可处理具有嵌套层次结构的复杂文本内容和图像之间的关联关系挖掘和检索。具体来说,DEG利用深度卷积神经网络提取图像特征,利用层次反馈神经网络对文档按其结构属性进行语义映射,之后将图像深度特征映射到文本语义空间,根据训练数据中跨媒体数据间的对应关系进行排序学习,进而实现跨模态检索。 本文最后对跨媒体系统的各个方面作了分别介绍,对各种代表性跨模态检索算法作了分类和整理。设计了一个实际跨媒体检索系统并展示了其用户界面。