论文部分内容阅读
随着大数据时代的到来,大量的多媒体数据充斥在人们的数字化生活中。作为一种新兴的高效信息检索方法,跨模态检索可满足人们对多模态信息检索的迫切需求,成为当下研究的热点。如何挖掘多模态数据的语义信息,充分利用不同模态间隐含的语义关系是跨模态研究的重点与难点。目前跨模态检索研究一般采用海量样本标注的多模态数据集。而在车载视频、监控视频、遥感影像等行业应用中,往往会产生大量无标注数据,并存在模态缺失、数据质量低、标注成本高导致的可用样本数量少等问题。这样的数据可定义为小样本多模态数据,其特点是可用数据少,一种模态数据远少于另一种模态。使用小样本多模态数据训练模型困难,造成跨模态检索精度较低,在此定义为小样本跨模态检索问题。为解决该问题,本文基于深度学习与迁移学习对跨模态检索进行了深入研究,主要工作如下:(1)提出了一种基于深度学习的跨模态任务学习框架,构建了端到端的跨模态检索与识别网络(CMR2Net)。CMR2Net使用相似性度量的方式对特征进行融合,分析语义关系实现异构数据高层特征的关联,解决了不同模态之间语义计算的问题。为验证CMR2Net的跨模态检索效果,实验采用样本交叉配对的组织方式,构建了特种车辆多模态数据集(SVMD)。在SVMD上进行的图像-音频跨模态检索实验表明,CMR2Net可达到较高的检索精度,能有效地学习到不同模态间的语义相关性。(2)提出了一种基于迁移学习的遥感图像跨模态检索方法。为解决小样本数据跨模态检索问题,进一步构建了基于迁移学习的跨模态检索与识别网络(TCMR2Net)。TCMR2Net迁移了CMR2Net的模型结构与低层参数。为验证TCMR2Net的跨模态检索效果,实验使用高分二号卫星的可见光和近红外遥感图像,构建了遥感多模态飞机数据集(RSAMD)。在RSAMD上进行的可见光-近红外跨模态检索实验表明,TCMR2Net能有效地迁移不同领域的低层知识,与未使用知识迁移的模型对比具有较高的性能提升。本文采用深度学习与迁移学习方法,挖掘多模态数据之间潜在的语义关联,在小样本数据集中可实现较高精度的跨模态检索,能有效节省数据预处理的成本。本研究对解决小样本跨模态检索和跨模态目标识别等科学问题,具有一定的理论指导意义。相关算法对无人驾驶车的特种车识别、遥感图像跨模态目标检测及遥感智能信息提取等应用系统的研发,具有一定的参考价值。