【摘 要】
:
随着移动互联网的快速发展,图像、文本、视频等多模态数据量爆炸式增长。这导致了用户感兴趣的数据模态不再单一,同时用户的检索需求也发生了改变,呈现出由原先的单一模态检索到跨模态检索发展的趋势。跨模态检索致力于实现两个不同模态之间的信息交互,即通过一种模态样本来检索具有近似语义的另一种模态样本。在此大数据时代背景下,跨模态检索相比于单一模态检索更加符合用户的检索需要,成为检索信息的必要手段之一。目前,基
论文部分内容阅读
随着移动互联网的快速发展,图像、文本、视频等多模态数据量爆炸式增长。这导致了用户感兴趣的数据模态不再单一,同时用户的检索需求也发生了改变,呈现出由原先的单一模态检索到跨模态检索发展的趋势。跨模态检索致力于实现两个不同模态之间的信息交互,即通过一种模态样本来检索具有近似语义的另一种模态样本。在此大数据时代背景下,跨模态检索相比于单一模态检索更加符合用户的检索需要,成为检索信息的必要手段之一。目前,基于Transformer架构的视觉-语言大模型因其任务准确率较高成为现在的主流方法,按照模型结构可以分类为单流结构和双流结构。无论单流结构还是双流结构都需要使用复杂、庞大的模型和大量计算资源,才能从大规模数据集中学习到一些有用的信息,而这显然是很多资源受限的设备所满足不了的。为了解决模型需要大量计算资源和巨大参数量与资源受限的矛盾,在保证性能不变的前提下对模型进行压缩和加速具有重要的实际意义。因此,本文针对跨模态检索模型TERAN进行模型的加速和压缩研究。具体来说,主要研究内容如下:(1)提出了多模块协同的知识蒸馏算法对模型进行压缩。该算法采取了分模块蒸馏的方式,将蒸馏过程分为三部分:特征提取模块的蒸馏、特征学习模块的蒸馏、相似度计算模块的蒸馏。实验结果表明,蒸馏后的学生模型相较于蒸馏前的学生模型精度提高了5%左右,并且在精度与教师模型基本相当的情况下减少50%的模型参数量。(2)为了进一步提高模型的推理速度,提出了基于两阶段检索的跨模态检索模型TSCMR。该模型将图文检索分为图文粗粒度匹配和图文细粒度匹配两个阶段,对检索过程进行优化。在图文粗粒度匹配阶段中,该模型加入了代表图片和文本的全局特征,选择图文粗粒度匹配得分前k高的检索目标进入图文细粒度匹配阶段,减少在图文细粒度匹配阶段消耗的时间和计算资源,实现模型的推理加速。实验结果表明,该模型在性能和TERAN基本相当的情况下实现3.1倍的推理加速。(3)针对基于两阶段检索的跨模态检索模型,重新设计了多模块协同的知识蒸馏算法,将相似度计算模块的蒸馏分为图文粗粒度匹配阶段的蒸馏和图文细粒度匹配阶段的蒸馏两部分,在实现模型推理加速的基础上对模型进行压缩。实验结果表明,蒸馏后的学生模型相较于蒸馏前的学生模型精度提高了5%左右,并且在精度与教师模型基本相当的情况下实现3.2倍的推理加速、50%模型参数量的减少。
其他文献
环论是代数学的重要分支,而环上映射的研究有助于分析环的结构.设R是环,T是R的一个非空子集,Z是R的中心,f是R到R的映射.若对任意a ∈ T,有f(a)a-af(a)=0(f(a)a-af(a)∈ Z),则称f为T上的可交换(中心化)映射.1957年,Posner最先考虑素环上的可交换映射和中心化映射,证明了非交换素环上的中心化导子一定为零映射.Posner定理被认为是广义恒等式理论的开端.此后
近些年金融科技发展呈迅猛之势,已经成为了推动我国金融业升级的主要动力。金融科技对中国上市的商业银行的业务发展有着重要的影响,要在新的时代里成为金融科技发展的弄潮儿已成为我国银行业内的改革共识。金融科技给我们的社会和经济带来新的发展机会,但是从某种意义上来说,它也会给我们的传统商业银行的发展造成一些阻碍。为了结合金融科技的最新发展应用深入探究金融科技对传统商业银行的盈利水平的影响,本文从理论分析和实
数字病理图像是数字化病理技术的产物。近年来,数字化病理技术不断更新,数字病理图像的质量与信息量随之显著上升,其潜在价值亟待发掘。与此同时,深度学习技术在计算机视觉领域大放异彩。数字病理图像包含丰富信息的特点与深度学习善于挖掘高维信息的特性十分契合,基于数字病理图像的深度学习任务越来越引起研究者关注。研究这一类课题对计算机视觉、病理学以及辅助诊断等领域的发展具有重要的促进作用,同时对医疗体系的进步有
目的 探讨雷火灸联合盆底功能训练在产后尿潴留产妇中的应用效果。方法 选择本院于2019年1月—2021年5月收治的80例产后尿潴留产妇,按随机数字表法分为两组,每组各40例。对照组在常规护理基础上开展盆底功能训练,观察组采取雷火灸联合盆底功能训练,共干预7 d。比较两组膀胱功能、尿道口疼痛程度及尿路感染率。结果 干预后,观察组最大尿流率高于对照组,膀胱初感容积、最大尿流率时逼尿肌压力大于对照组,尿
在乡村振兴的背景下我国农村快速发展,农村居民的生活水平逐步提高,广大农民对改善居住空间环境以及完善配套设施的需求逐渐增加。村落各个功能空间之间的位置关系影响到村庄的发展和居民的日常生活,村落空间结构受到村落形态、道路、河流、景观、产业等多种因素的影响。我国农村基数大,需要改善的村落数量多并且设计周期短,众多因素的制约使得有限的设计从业人员不能兼顾多方面的条件,人工进行村落空间结构布局的方式效率低,
本文借助有限元方法,推导了带有弹性边界支撑的梁的正问题数值求解模型,可方便的进行位移对支撑及本构参数的敏度分析。反问题上采用Levenberg-Marquardt方法求解,可在静力和动力范围内对弹性支撑及本构参数进行单一/组合反演。时间上采用时域精细算法,通过离散时段内的时间相关变量的展开,将时空耦合问题转化为一系列递推形式的空间问题,并采用自适应技术以保证计算精度,避免步长选择不当可能造成的计算
目的 观察雷火灸对气滞血瘀型混合痔术后尿潴留患者治疗效果的影响。方法 以2019年1月至2021年1月江苏省沭阳县中医院收治的84例气滞血瘀型混合痔术后尿潴留患者为研究对象,根据抽签法将其分为观察组和对照组,每组42例。对照组采用诱导排尿及常规护理,观察组采用雷火灸配合干预。比较2组患者在干预前和干预7 d后的中医症候积分、肛周肌电值、康复情况及并发症发生情况。结果 干预前,2组的各项中医症候积分
小农户是实现农业农村现代化的重要基础,我国农业农村现代化的发展既给小农户的发展带来千载难逢的机遇,但也为其带来一定的现实性问题,所以提升小农户发展水平显得至关重要。党的十九大报告中提出要把培育农民合作社等新型农业经营主体,实现小农户和现代农业发展有机衔接作为一项重要任务,并且我国已经连续五年提出要实现“小农户和现代农业发展有机衔接”,而把握基于区域差异的小农户发展现状变化及其内在机理对提升小农户发
党的二十大报告明确指出“全面建设社会主义现代化国家,最艰巨最繁重的任务仍然在农村。”因此推进农业农村现代化成为全面建设社会主义现代化国家的重要内容之一,自创新驱动发展战略实施以来,科技创新被摆在国家发展的核心地位,成为引领农业现代化的第一驱动力,中央农村工作会议提出:要依靠科技和改革双轮驱动加快建设农业强国,发展“凡是乡村振兴,必有科技支撑的局面”。江汉平原是我国重要的商品粮生产基地,作为乡村振兴
随着人民经济水平的提高,道路上的车辆不断增加,与此同时交通事故的发生率也在逐渐增多。根据调查显示,导致交通事故的主要原因之一是疲劳驾驶,驾驶员因长时间驾车会产生疲劳状态,轻度疲劳会使驾驶员的视野变得狭窄,漏看道路信息,严重者丧失驾驶能力,威胁驾驶员的生命安全。为了提醒驾驶员正确驾驶,减少交通事故的发生,一种高效精确的疲劳驾驶预警系统对于安全出行必不可少。本文主要研究基于多特征因素的疲劳驾驶检测的方