【摘 要】
:
跨模态图像文本检索的任务对于理解视觉和语言之间的对应关系很重要,大多数现有方法利用不同的注意力模块挖掘区域到词和词到区域的对齐来探索细粒度的跨模态关联.然而,现有的方法没有考虑到基于双重注意力会导致对齐不一致的问题.为此,本文提出了一种一致性协议匹配方法,旨在利用一致性对齐来增强跨模态检索的性能.本文采用注意力实现跨模态关联对齐,并基于跨模态对齐结果设计了基于竞争性投票的跨模态协议,该协议衡量了跨模态对齐的一致性,可以有效提升跨模态图像文本检索的性能.在Flickr30K和MS COCO两个基准数据集上,
【机 构】
:
清华大学软件学院,北京100084;清华大学北京信息科学与技术国家研究中心,北京100084;清华大学北京信息科学与技术国家研究中心,北京100084;清华大学 自动化系,北京100084;涿溪脑与智
论文部分内容阅读
跨模态图像文本检索的任务对于理解视觉和语言之间的对应关系很重要,大多数现有方法利用不同的注意力模块挖掘区域到词和词到区域的对齐来探索细粒度的跨模态关联.然而,现有的方法没有考虑到基于双重注意力会导致对齐不一致的问题.为此,本文提出了一种一致性协议匹配方法,旨在利用一致性对齐来增强跨模态检索的性能.本文采用注意力实现跨模态关联对齐,并基于跨模态对齐结果设计了基于竞争性投票的跨模态协议,该协议衡量了跨模态对齐的一致性,可以有效提升跨模态图像文本检索的性能.在Flickr30K和MS COCO两个基准数据集上,本文通过大量的实验证明了所提出的方法的有效性.
其他文献
静息态功能磁共振图像是随着时间变化的一系列三维图像。已有的3D卷积过程本质上是对三维图像数据或二维图像+时间维数据进行处理,无法有效地融合静息态功能磁共振图像的时间轴信息。为此,本文提出了新型的4D卷积神经网络识别模型。具体而言,通过对输入的fMRI使用四维卷积核执行四维卷积,在自闭症患者的功能磁共振图像中,从空间和时间上提取特征,从而捕获图像在时间序列上的变化信息。所开发的模型从输入图像中生成多
分类器模型之间的多样性是分类器集成的一个重要性能指标.目前大多数多样性度量方法都是基于基分类器模型的0/1输出结果(即Oracle输出)进行计算,针对卷积神经网络的概率向量输出结果,仍需要将其转化为Oracle输出方式进行度量,这种方式未能充分利用卷积神经网络输出的概率向量所包含的丰富信息.针对此问题,利用多分类卷积神经网络模型的输出特性,提出了一种基于卷积神经网络的概率向量输出方式的集成多样性度量方法,建立多个不同结构的卷积神经网络基模型并在CIFAR-10和CIFAR-100数据集上进行实验.实验结果
针对动用计划下的车辆装备备件的消耗特点,研究了车辆装备维修备件消耗量和库存控制两个预测优化问题.考虑动用计划期内车辆装备的预防性维修和修复性维修,实现定时定程维修和自然随机故障维修下装备维修备件的消耗量的预测.在此基础上,根据备件库存检查方式的特点,建立基于定期检查策略的联合补货库存控制模型,根据模型的结构特点确定决策变量界限,并利用多类种群位置更新方式改进了果蝇优化算法.仿真结果表明,改进的果蝇优化算法具有良好的求解效率,本文所提出的优化方法可为车辆维修保障资源优化提供决策依据.
针对产业化的汽车仪表指针人工视觉检测效果差、检测速度慢和实时性低等问题,本文提出了一种改进的Faster R-CNN汽车仪表指针实时检测算法。通过改进原始的RoI网络层结构,实现小目标高低层特征之间的完整传递;采用双线性内插算法替代两次量化操作,使得特征聚集变成连续的过程,能够有效减少计算时间;最后将工业机采集的视频数据,预处理成VOC格式数据集进行训练,调整超参数得到改进汽车仪表指针检测模型。实
针对SLAM (simultaneous localization and mapping)在急转弯、快速运动场景中定位失败的问题,提出一种融入注意力和预测的特征选择即时定位与地图创建(SLAM)算法,选择随着相机的运动更有可能保持在视野中的特征点,舍去即将消失在视野中的特征点。首先利用logdet度量量化特征选择的可行性,然后计算特征点的信息矩阵,再从检测到的特征中通过贪婪算法选择k个特征(近似
当处理多条件多样本RNA-Seq测序数据时,现有方法忽略了读段分布样本之间存在高度相似性的特点.本文提出了一个基于多条件多样本RNA-Seq测序数据剪切异构体表达水平估计方法MCMS-Seq.该方法建立了一个联合偏差估计模型来提取读段分布在样本之间的相似性特征,同时考虑读段分布受全局偏差和局部偏差的影响.此外,增加 L2/L1组稀疏约束和L1稀疏约束两个正则化项,用来体现基因和剪切异构体之间存在稀疏特性,以及消除技术性误差和数据噪声的影响.通过多个真实数据集的验证,MCMS-Seq方法能获得更为准确的剪切
为在设计阶段对YK73200数控成形磨齿机进行热优化,减小热变形,建立磨齿机热特性分析模型,并基于试验对所建模型进行验证.针对磨齿机的各个热薄弱环节,提出相应的热结构优化及高效冷却措施.采用验证后的模型对改进后的磨齿机进行热特性分析.结果表明:基于热结构对称设计原理,改进床身冷却流道结构设计,可使不同位置工况下磨齿机关键点的热变形最大减少21.3%.
为有效诊断旋转机械故障,提出基于集合经验模态分解(EEMD)的多维特征提取故障诊断识别方法.利用EEMD将原始振动信号分解为若干个本征模态函数(IMF),分别计算原始信号和IMF分量的时域指标;将时域指标进行奇异值分解,得到奇异值特征向量,计算原始信号频率带能量比和IMF分量能量比;将IMF分量能量比、奇异值特征向量、频率带能量比组合为故障特征向量,作为神经网络的输入,对转子的工作状态进行诊断识别.结果表明:多维特征向量的识别效果优于EEMD能量特征,能更充分反映出转子的故障特征.
NAND闪存信道检测技术直接影响数据存储的可靠性,本文针对NAND闪存信道检测过程中因缺乏信道先验信息而导致检测性能显著降低的问题,提出了一种基于卷积神经网络(convolutional neural networks,CNN)的信道检测器.该检测器通过学习存储单元阈值电压随应用场景的变化特性,来初始化网络参数,并通过在系统空闲时间段优化网络参数来实现与信道的匹配.仿真实验结果表明:在信道先验信息未知的情况下,CNN检测器可获得比最优阈值检测器更好的检测性能;与现有的循环神经网络检测器相比,CNN检测器具
在线教育存在“信息迷航”问题,而传统的信息推荐方法往往忽视教育的主体——学习者的特征.本文依据教育教学理论,根据在线教育平台中的学习者相关数据,研究构建了适用于在线学习资源个性化推荐的学习者模型.以协同过滤推荐方法为切入点,融合学习者模型中的静态特征和动态特征对协同过滤方法进行改进,建立融入学习者模型的在线学习资源协同过滤推荐方法.以2020年3~7月时间段的东北石油大学“C程序设计”课程学生的真实学习数据和行为数据为数据集,对本文提出的方法进行验证和对比,最后证明本文提出的方法在性能上均优于对比方法.