【摘 要】
:
近年来,随着人工智能、即时通讯和智能手机的发展,互联网中的各种数据处于指数级增长的状态。特别是对于一些UGC(User-Generated Content,用户生产内容,也称UCC)平台,用户可以随时随地将自己创作的图片、视频或音频等不同类型的多媒体数据上传到软件平台上。因此,如何高效、准确地从海量的多媒体数据中检索出用户需要的内容是一个具有应用价值却又极具挑战性的问题。因为不同模态数据的底层特征
论文部分内容阅读
近年来,随着人工智能、即时通讯和智能手机的发展,互联网中的各种数据处于指数级增长的状态。特别是对于一些UGC(User-Generated Content,用户生产内容,也称UCC)平台,用户可以随时随地将自己创作的图片、视频或音频等不同类型的多媒体数据上传到软件平台上。因此,如何高效、准确地从海量的多媒体数据中检索出用户需要的内容是一个具有应用价值却又极具挑战性的问题。因为不同模态数据的底层特征表示是异构的,存在着不可逾越的语义鸿沟,所以跨模态检索的关键问题之一就是解决数据间的语义鸿沟。针对上述问题,本文聚焦于视频和文本这两种最常见的跨模态检索数据,对基于公共空间学习的视频文本检索算法展开深入研究。本文从多模态数据的表达和公共空间学习的角度出发,提出了一系列视频文本跨模态检索模型,并在多个数据集上做了大量的验证及消融实验。具体来说,本文主要创新点如下:1、因为视频和文本的数据形态本质上都是序列,所以如何充分挖掘和表达序列特征成为了视频与文本检索的关键。为此,本文提出了一种基于序列特征增强的视频文本检索模型。该模型通过多个序列特征提取模块从原始序列数据中提取出差异化的序列特征,接着通过序列增强模块对序列特征进行增强,然后对增强后的序列特征进一步提取出序列中包含的局部信息,最后将从模型中提取出的不同特征融合并表示成视频和文本的公共空间。实验表明,这种基于序列特征增强的检索模型不仅充分挖掘了数据中的序列信息,还通过特征融合的方式对视频和文本进行高效的表达,进而提高了视频与文本相互检索的性能。2、现实场景中的视频和文本都包含了丰富的语义信息,如视频中有背景、人物和动作等不同的语义,文本中有名词、动词和语气词等不同的语义。为了对视频和文本的多种语义进行高效的表达与利用,本文提出了一种基于自适应多语义空间表示的视频文本检索模型。该模型共享多语义空间特征提取网络,通过同模态子空间之间保持差异性且跨模态子空间之间保持一致性的方式,来自适应地学习并表示不同模态数据的语义子空间。实验表明,该模型通过多语义子空间融合匹配的方式来对视频和文本进行检索,提高了模型的检索性能。3、因为视频和文本数据的语义鸿沟源于数据底层的差异,所以直接优化两个模态间的语义鸿沟非常困难。为此,本文提出了一种基于渐进式语义匹配的视频文本检索模型。该模型通过多层级的网络结构并引入多个辅助空间,由易到难地优化两个模态数据间的语义鸿沟。实验表明,这种渐进式的学习过程不仅可以降低优化语义鸿沟的难度,还能通过这种方式得到更好的公共空间表达,进而提高模型的检索性能。
其他文献
随着计算机技术和深度学习的飞速发展,视频目标检测技术得到了很大提升。在实际工业应用中我们对模型的轻量化和实用性提出了更高的要求。目前基于深度学习的视频目标检测方法主要使用静态推理方法,不仅降低了模型的表达能力,而且不能满足不同设备对多样性算力的需求。本文主要研究内容是设计基于动态神经网络的视频目标检测网络、高效的动态推断方法和特征融合等,可以实现低能耗的视频目标检测。具体工作如下:(1)提出了基于
语义分割任务一直是国内外众多学者的研究热点,在自动驾驶、智慧安防和新零售等领域具有广阔的应用前景。目前,随着深度学习的广泛应用,基于深度学习的全监督语义分割实现了语义分割性能上的巨大突破,然而这种性能的提升依赖于对大量的训练图像进行逐像素的人工标注,这种昂贵的标注方式无法实现对社交网络中海量图像数据的充分利用。因此,近年来人们逐渐将关注点投入到弱监督语义分割任务中,基于弱监督的语义分割方法仅需要图
高光谱图像包含丰富的空间和光谱信息,在地质、植被生态、农业、海洋等领域得到了越来越多的应用,其中,高光谱图像分类是高光谱应用中一项较为核心的任务。由于深度学习在近些年来的发展,许多使用深度学习技术的分类方法被应用于高光谱图像分类。深度学习往往需要大量的训练样本来拟合模型,然而,高光谱数据的获取和标注往往比较耗时耗力,另外高光谱图像大量的波段引发的维数灾难问题更加剧了这一问题。因此,探究一类针对样本
医学图像配准是医学影像处理中的重要环节,其通过构建不同图像在对应组织结构上的空间一致性,在精准医疗等临床应用中有着重要地位。由于传统配准方法已无法适应日趋复杂的图像数据以及更高效的诊疗速度要求,基于深度学习的医学图像配准方法应运而生。但这类方法预测的变形场往往具有折叠、体素漂移、非光滑等问题,且可训练参数随着网络复杂度呈指数增长。鉴于偏微分方程(Partial Differential Equat
本文研究基于卷积神经网络的传统中医舌象诊断算法。论文使用目标检测、语义分割和图像识别卷积神经网络相结合的方式,实现将中医舌象诊断结构化和客观化。论文首先着手研究中医舌象诊疗理论,学习舌诊相关知识,掌握舌象诊断方法,为之后舌象诊断标准化打下基础。本文依照中医理论将舌象划分出舌色与舌质两个方向。从舌色角度出发,将舌色归类出青紫舌、绛红舌、淡红舌和淡白舌。从舌质角度出发,将舌质归类出裂纹苔、芒刺苔、滑腻
随着集成电路和微机电系统的不断发展,低功耗电子器件逐渐得到了广泛的应用。传统的为低功耗电子器件供电的方式是采用化学电池,但是化学电池存在使用寿命有限、维修成本高及环境污染大的问题。收集环境中可再生能源的能量收集技术则成为化学电池的一种有效的替代品。环境中的超低频(<5 Hz)机械运动中蕴含的能量由于其存在广泛而受到研究者的关注。然而,传统的收集机械能的振动式、摆动式和旋转式俘能器因其输出性能较差及
随着计算机视觉领域的发展,一系列依赖于计算机视觉的应用场景和解决方案纷纷涌现,如自动驾驶、智慧安防等等。这些智能应用技术都离不开计算机视觉中的目标检测这个关键任务。目标检测任务根据输入信息源可以分为多类,本文旨在研究二维图像中的目标检测。该任务可以描述为给定二维图像,输出其中存在的已知类别的目标实例的类别及位置。现有的代表性目标检测方法大都仅仅依靠目标区域的局部特征独立地对每个候选目标进行检测。这
行人检测作为一种计算机视觉任务,能够及时对成像设备产生的图像进行分析处理,为针对行人的后续任务做出保障。由于其在无人驾驶,安全等方面具有重大意义,因此受到了广泛的研究与应用。传统的行人检测方法往往基于单模态的输入数据,如可见光图像,红外图像等。然而单模态数据在特定条件下常常存在缺陷,在处理复杂环境条件下的行人目标时,往往无法获取明确的行人信息,从而使得基于单一模态的行人检测存在较高的漏检以及虚警率
随着遥感技术的飞速发展,遥感卫星捕捉到的视频数据包含了更丰富的地物信息,能更有效地完成城市交通管理、海洋监测、智慧城市等任务。然而,在遥感视频中跟踪对象并非易事。首先,遥感视频通常存在分辨率低、对比度低、视野宽的特性,这意味着视频中的物体密集且相互干扰,因此网络很难提取有效的特征。此外,目前主流的基于孪生神经网络的跟踪方法用于匹配模板和搜索框特征的互相关操作是一个局部线性匹配过程,容易导致语义信息
恒定导通时间(COT)控制的开关电源凭借快速瞬态响应的优点迎来了日益增长的市场需求与研究热度,被广泛用于电信设备、计算机、服务器、汽车电子等众多领域。但传统COT控制的工作原理决定了其存在输出电压精度低、开关频率大幅变化引发电磁干扰等缺陷。在高压宽输入范围的转换器中,大幅变化的占空比使得上述缺陷更为显著。顺应高精度输出电压与高精度开关频率的发展趋势,本文研究了相关理论与现有改进技术,提出了创新的输