基于多源残缺数据的视频实体链接研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:dldx05444011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,随着移动终端普及和网络的提速,以短视频为代表的大流量传播内容逐渐获得各大平台和用户的青睐。此类短视频中,有相当大一部分是截取电影、电视剧等影视资源,或者是对这些传统影视资源进行二次编辑加工制作而成。针对传统的长视频影视资源,各视频播放平台通过多年积累已经逐步构建得到了成熟的知识库。但对于新兴短视频,由于时效性和日增数据量的问题无法构建一一对应的知识库。因此在进行短视频内容理解时,针对短视频知识库匮乏这一问题,可利用实体链接技术将短视频和传统长视频知识库中的实体链接起来,利用长视频实体中大量的先验知识来分析短视频内容,辅助判断用户喜好,实现为用户精准推送相关内容。本文主要研究多源残存长、短视频数据的实体链接问题。首先,对于每条短视频,数据集中包含它的文本标题和封面图。对于每个长视频实体,数据集中包含它的文本内容描述和封面图。通过构建适当的深度学习模型进行实体消歧,从候选的长视频实体集中找到与输入短视频最相关的长视频实体是该问题的主要解决方法。但数据集中短视频封面图、长视频文本描述、长视频封面图等维度存在不同程度的残缺,这给该任务造成了比较大的挑战。针对上述的问题和挑战,本文主要完成了以下几方面工作:(1)针对新兴短视频和传统长视频间的实体链接问题,提出了一个基于多源残缺数据的视频实体链接新任务,并整理发布与之对应的数据集。(2)针对多源残缺的实体链接问题,本文提出了一种基于相似性特征向量的实体链接算法。该方法首先对输入数据的不同维度进行单独编码,然后利用全连接层、Attention机制、VSM算法等多种方式分别计算短视频与长视频实体之间任意两维输入信息的相似性特征向量。最后基于相似性特征向量,输出模型结果。(3)针对融合多组残缺相似性特征向量的问题,本文提出了一种基于语义对齐和最大值池化的特征融合算法FISAM。FISAM算法使得模型在特征向量完整的情况下能充分利用每条特征向量,在特征向量残缺的情况下能维持一个相对较高的准确率。(4)为了在已有数据集上进一步提升模型的鲁棒性,本文提出了一种基于Dropout的新型数据加载算法DLD。DLD算法使得模型在面对残缺程度不同的测试数据时,能始终维持稳定的准确率,体现出了较强的鲁棒性。为了验证提出的各种算法的有效性,本文在多个残缺程度不同的测试集上分别进行了多组对比实验。实验结果表明,本文提出的方法具有较强的鲁棒性,当输入数据残缺程度波动时,模型能始终维持一个相对稳定的准确率,取得了较好的效果。
其他文献
本文主要讨论了几乎周期性相关时间序列的频谱密度估计的渐近性质。首先,我们对非平稳的几乎周期性相关的时间序列的背景做了一个简单的介绍,回顾了几乎周期性相关时间序列的
盐胁迫是限制植物生长和作物生产力的主要非生物胁迫之一,土壤中盐分过多会影响植物对营养离子的吸收、叶片的光合作用以及各种代谢调节活动。紫花苜蓿作为重要的植物蛋白和脂肪来源,其发育和产量受盐碱胁迫影响。盐碱植物的耐盐性涉及多个信号通路的调控,目前,关于盐碱胁迫降低养分利用率和光合速率方面的研究知之甚少,确认耐盐性的有效调控子有利于苜蓿品质改良和生产。为了深入研究盐胁迫对紫花苜蓿生长的影响及紫花苜蓿的耐
奶牛乳腺炎是由多种病原菌引起的,危害奶牛养殖业最严重的疾病之一,降低了奶制品的质量,给奶牛业造成巨大的经济损失。金黄色葡萄球菌是其主要病原菌之一,该细菌常在奶牛乳房
目的:本论文依托北京市首都卫生发展科研专项项目“基于精准医疗模式的糖尿病中医防治与管理”(项目批号:首发2016-1-4151),由文献综述、糖尿病前期中医证治特点、PRO量表研究组成,通过对临床病例的整理和挖掘,探索糖尿病前期的辨证分型、治则治法、常用药物,形成糖尿病前期PRO量表。方法:(1)文献综述:整理归纳近10年来中医治疗糖尿病及PRO量表的文献,回顾糖尿病前期中医治疗及PRO量表国内外
历代中国山水画家都对画面的陈置布局推陈出新以达到气韵生动的效果,虚实关系的处理在山水画创作中更是营造画面空间和意境的重要方式。虚实相生方得生生不息。清代龚贤山水
核磁共振(NMR)技术是目前物理学等多学科研究中的热门领域之一,是目前技术上十分成熟的量子计算方法之一,我们已经可以灵活运用NMR技术完成实验。本课题的第一部分充分利用优
场景语义分割是计算机视觉中的基本问题,其主要任务是针对给定的二维图像或者三维点云,采用语义分割算法将图像中每个像素点或者三维点云中每个点进行分类,输出预先定义的语
目的:本研究旨在观察重复周围磁刺激(repeated Peripheral Magnetic Stimulation,rPMS)对身体意象和身体图式系统在注意、手感知形态面积、腕关节角度再现能力三个方面的影响;并构建身体意象和身体图式系统可塑性的数学模型,以用于脑卒中等康复医学科常见相关疾病的病情评估。方法:研究纳入40例健康成年人(20-40岁),利用Excel随机函数分为假性磁刺激组20例和重
化石能源的逐渐紧缺及其所带来的环境问题不容忽视,同时社会和工业的发展对电能的需求逐渐增大,以风力发电与太阳能发电为代表的可再生能源发电取得了大规模快速发展,分布式可再生能源发电比例逐步提高,高比例可再生能源接入对配电系统运行与规划提出了更高的要求。主动配电系统强调系统的灵活性与主动性,将先进的能量管理技术与信息通信技术相结合,对系统内“源”、“荷”、“储”等资源进行主动控制,减少可再生能源接入对系
寿命调控是生物个体衰老机制的重要研究问题之一。秀丽隐杆线虫易于培养,生命周期短,基因组测序已完成,成为研究寿命调控的重要模式生物。近年来已有文献报道,蛋白质的翻译后