论文部分内容阅读
随着计算机技术的日益进步,数据的收集来源和应用方式变得越来越多样化、复杂化。这些针对同一对象的从不同来源获取或者从不同角度刻画的数据,我们称之为多模态数据。从不同来源获取的数据,我们称之为异源多模态数据;反之来源单一,但是可以从不同角度刻画的数据,我们称之为同源多模态数据。如何从这些多模态数据中提取特征并加以利用的研究称为多模态学习。近几年,得益于计算机性能的大幅度提升,深度学习技术日益成熟,因而许多研究人员为了能够更有效地从这些多模态数据中提取有价值的特征,结合不同的数据特点以及应用场景特点,提出许多基于不同的深度学习构件的多模态数据应用算法。然而,现有的多模态数据研究中仍然存在着一些问题没有被很好地解决,例如数据的模态不一致、表示复杂以及信息匮乏等。于是,本文分别针对异源及同源多模态数据在多个应用场景中存在的问题,从以下三个方面进行研究,并且提出了相应的解决方法:1.异源多模态数据模态不一致问题研究。大多数现有的异源多模态方法都会利用模态一致性来降低学习问题的复杂性。模态一致性是指同一对象的不同模态示例之间内容一致。为了保持这种模态间的一致性,我们需要保证获取的数据模态完整,否则模态之间信息就存在不对称。但是,由于数据收集失败,数据自身缺陷以及数据私密性等问题,多模态数据在实际应用场景中往往存在模态缺失;此外,即使在完整的多模态数据中也仍然存在模态间不一致异常问题,即事物的不同模态描述之间存在差异或者数据本身与整个数据集的内容存在差异等。这些问题共同导致了异源多模态数据不一致性问题。因此,为了解决这类模态不一致问题,我们提出了一种基于深度能量模型构件的多模态鲁棒学习算法DRUMN。首先,我们采用深度自动编码器框架并引入深度能量模型构件,通过最大化同构多模态数据间一致性来解决模态缺失问题;在此基础之上,我们采用一种自适应权重估计方法来消除异常数据的影响。最终,DRUMN可以有效地解决异源多模态数据不一致问题,并且能提取有判别力的特征表示。2.异源多模态数据复杂表示问题研究。以往多模态算法处理的数据一般满足示例级模态一致性,即同一对象的不同模态示例之间存在对应关系。然而,在很多复杂的应用中,为了能够充分的描述有关对象,往往获得的多模态数据形式复杂,因而可能无法满足示例级模态一致性。例如,一篇文章常常包含多段文字和多张图片。一方面,我们知道这些图片和文字整体之间是对应的(都是对这篇文章内容的描述);但是,另一方面,我们既无法确定图片和文本段数量,也无法确定每一张图片和每一段文字之间的对应关系(无法确认示例级的模态一致性)。在处理这些异源多模态数据的复杂表示问题时,现有的算法无法提供很好的解决方案。因此,我们提出了一种基于消歧模型构件的多模态深度学习算法。我们利用多示例学习中有关方式来处理这类数据的复杂表示问题,同时引入最优传输理论用于解决它们的多标记预测以及标记相关性挖掘等问题。3.同源多模态数据信息匮乏问题研究。异源多模态数据最大特点是来源多样化,这意味着可供挖掘的信息相对较为丰富。相比之下,同源多模态数据由于数据源单一信息相对较少。为了解决单源数据信息匮乏的问题,我们可以从多个角度挖掘数据中的信息,这也是单源多模态数据应用研究的出发点。换句话说,单源多模态提供了一种更加充分挖掘数据特征的研究思路。在不同的具体应用场景中,我们可以结合数据特点利用单源多模态技术提升模型的性能。例如,在短文本匹配场景中,数据源一般只有短文本对,传统文本匹配算法大多从单一角度提出匹配模型,因此模型的效果受限于数据信息匮乏,无法很好地提升。为了能更好的完成任务,我们基于单源多模态思路从多角度、多层次来挖掘文本数据中的信息。我们提出了一种基于局部交互构件的文本匹配算法。我们分别从局部和整体两个角度、低阶高阶两个层次,充分挖掘待匹配文本数据的特征以及文本之间的关系,从而提升文本匹配的准确性。