【摘 要】
:
视频描述定位旨在让机器根据用户提供的文本描述,在一个完整的视频中自动定位到和给定的文本描述最相关的特定视频段。该任务是计算机视觉与自然语言处理这两大学科的交叉研究项目,与单一模态相比在现实场景下具备更丰富且广泛的应用,因此具有更高的研究价值和社会意义。视频描述定位任务的关键在于建模视频模态和文本模态的关联关系,即通过多模态间的交互获取信息间的潜在关联。与此同时,参与该任务的视频模态和文本模态分别在
论文部分内容阅读
视频描述定位旨在让机器根据用户提供的文本描述,在一个完整的视频中自动定位到和给定的文本描述最相关的特定视频段。该任务是计算机视觉与自然语言处理这两大学科的交叉研究项目,与单一模态相比在现实场景下具备更丰富且广泛的应用,因此具有更高的研究价值和社会意义。视频描述定位任务的关键在于建模视频模态和文本模态的关联关系,即通过多模态间的交互获取信息间的潜在关联。与此同时,参与该任务的视频模态和文本模态分别在时序上和语序上具有极强的关联性。然而目前存在的方法大多只关注模态间的交互,忽略了模态内的关联关系,甚至丢失单模态本身的细粒度信息。本文研究的工作不仅建模了视频和文本这两种模态间潜在的匹配关系,同时获取了模态内的时序关联,实现了多模态信息的细粒度关联建模,本文的研究主要研究形成以下两个完整方法:1、基于模态内间协同多线性池化及多任务学习的视频描述定位方法。其中多线性池化特征融合模块(IIM)将模态内和模态间特征同时进行交互,有效地获取了多模态信息的细粒度关联。在IIM模块的基础上,研究了泛化的多线性池化特征融合模块(GIIM)并引入了时序模态参与融合。同时,在训练阶段使用多任务学习机制,将“视频行为识别”作为子任务,对主网络起到正则化的效果并出两种标签平滑策略。本方法在Ta Co S数据集和Charades-STA数据集超越了现有最好方法。2、基于多级模态内间注意力重构的弱监督视频描述定位方法。其中模态内间注意力模块在融合模态间特征的基础上,获取了视频模态内的时序关联。注意力加权后的视频特征由重构模块逐词生成给定的文本描述,在建模多模态匹配的同时,获取了文本模态内的语义关联。同时,提出一种考虑了视频段内部关联的视频段采样表征方法,并引入视频帧级注意力重构进一步提升效果。在训练阶段,仅使用视频-句子级别的标注,在测试阶段,将注意力分值排序后得到结果的预测。通过在Charades-STA数据集和Activity Net-Caption数据集进行比较,本方法超越了现有最好方法,可以更好的实现弱监督场景下的视频描述定位任务。
其他文献
双边市场作为目前发展较快的新型市场形态,在互联网、大数据迅猛发展的促进支持下,开始逐步渗透至越来越多的行业,网贷平台也因此应运而生,并得益于其高效便捷的特点而实现飞速发展。网络外部性作为双边市场区别于传统单边市场的重要特征,在衡量两边用户规模和参与度方面发挥着至关重要的影响作用。对于P2P网贷平台这种主要依托借贷双方用户规模实现交易价值的双边市场而言,其网络外部性的影响效果更为明显。然而,目前少有
本文主要探索大型工业实时通信网关融合,由ARED与TsRR算法优化,优先级不一样的任务就绪表与调度等诸多方面展开设计,同时对结果展开仿真检测。实验结果表明:(1)针对大量优先级任务工作系统响应时间的相关结果,展开研究与对比能够得知,相较于u COS-II系统而言,在多任务调度切换过程中,u COS-III需要的相应时间更少,同时伴随任务量的增多,在响应时间方面的差别更加显著。再则最大相应时间则是在
标准审计报告长期以来一直受到监督管理机构、投资人和学术界的广大质疑。因提供信息过少,已无法满足财务报表使用者在经营全球化、会计信息日益复杂化下对决策有用信息的需要。2016年12月,我国财政部印发了《中国注册会计师审计准则第1504号》,要求审计师在审计报告中增加关键审计事项段,以进一步提升审计报告的信息含量,保持中国审计准则与国际标准的全面衔接,适应资本市场改革发展中对高质量会计信息的需求。关键
随着十九大会议的结束,可持续发展问题逐渐被重视,三次产业的协调发展问题也成为当今社会经济发展的关键问题。新疆乌鲁木齐市虽然资源丰富,但生态环境较为脆弱、潜在的不稳
利用光学遥感图像中的太阳耀光信息反演海面粗糙度是探测海表风速和浅海地形等海洋动力学参数的有效方法。目前对于多角度太阳耀光遥感探测应用和海面粗糙度定量反演研究刚刚
随着5G网络的发展,全球设备接入数量激增,网络服务需求大规模增长,频谱资源日益紧缺。功率域非正交多址接入(Non-orthogonal Multiple Access,NOMA)在传统接入技术上,增加了 功率域的概念,可以在不增加系统带宽的情况下提高系统设备接入数,有效的提升频谱效率,是一种潜在的5G多址接入技术方案。高铁网络建设是我国重要的经济发展战略。在未来,高铁运行速度提升,高铁用户数量大规
左右江红色文化诞生于左右江这片土地上,是中国共产党带领壮、汉、苗、瑶等各族同胞在反抗国民党统治和建立、保卫左右江革命根据地的斗争中所形成的器物文化和非器物文化的总和,是具有鲜明地方特色的先进文化。青年学生教育的根基就在于先进文化的继承,红色文化作为先进文化的一种重要形式,融入青年学生教育中能够在实现个人追求和民族复兴的道路上提供强大的精神动力。把左右江红色文化带入到青年学生的思想教育过程,逐步内化
随着我国旅游业的发展,入境游客逐年增多,如何为外国游客提供高质量旅游服务成为旅游行业从业人员要面临的现实问题。《客源国概况》课程是中职院校旅游类专业学生需要学习的基础课程,通过课程的学习,学生可以掌握不同客源国自然、人文和民俗风情知识,为入境游客提供个性化和差异化的优质服务打下基础。目前,传统教学法在该课程的教学中仍然占主导地位,传统教学模式下学生学习积极性不高、对课程内容理解不深入、能力得不到培
不同平台激光扫描设备获取的点云数据已经成为智慧城市三维快速获取的重要手段,但是由于扫描方式与视场角限制,一般都难以获取待测物体完整的点云数据。而影像点云是通过采集一定重叠率的影像,根据计算机视觉生成密集的三维点集,能获取复杂区域的测量数据。如何将这两种平台获取的点云数据结合各自优势信息和互补需求进行融合是近年来智慧城市建设的重点研究内容。本文针对三维激光点云数据外业采集缺失的原因,结合影像点云特点
压电致动器具有刚度大、频率响应快、位移分辨率高等优点,是精密定位领域的理想致动器,已成功应用于微纳米尺度测量、微机电系统、生物医学工程等领域。压电致动器的输入与输