端到端的短视频分类研究及应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:jjkjlhj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和各方面技术的不断更新,视频已逐渐成为人们生活中重要的信息载体。短视频的时长更短,在获取和分享上具有独特的优势,其数量也呈现出爆发式增长的态势。传统的分类方法建立在手工设计的特征之上,在短视频数量日益剧增的今天已经不能满足需求,因此急需对短视频分类技术加以改进和优化。短视频分类能够基于短视频内容添加类别标签,对于短视频的高效组织、检索和推荐等方面的研究和应用具有重要意义。现有的基于深度学习的短视频分类方法在模型设计、处理效率方面还存在着不足,本文基于深度学习方法,对短视频分类开展了研究,主要内容如下:本文对两个公开数据集进行调整,使用上采样的方式对数据集中的短视频数量进行扩充并保持标签间数量平衡。在无预训练且数据集规模较小的情况下,这种方式能够有效缓解从头开始训练模型时的过拟合现象,更适用于本文所研究的短视频分类任务。本文提出了一种端到端短视频分类模型,该模型在空间特征提取阶段结合了卷积结构和自注意力机制的特点,能够充分提取数据的局部特征和全局特征,并在通道维度上拼接,扩充特征的丰富度。模型在时间维度上使用膨胀卷积网络,扩大时域感受野的同时保留足够多的时序信息。同时使用双向循环神经网络对短视频的时序特征进一步建模,并使用计算注意力权重并加权求和的方式聚合循环神经网络的输出,得到更好的短视频整体表示。该模型三个人类行为识别数据集上的分类准确率分别为71.95%、52.24%和71.31%,优于同类研究的其他方法。为解决目前单一模态信息有限的问题,提高短视频分类方法的性能,本文提出了一种基于多模态的短视频分类模型。本文针对视觉、音频和文本数据的特点,分别构建对应的特征提取网络,抽取模态的抽象特征,再通过特征融合的方法,得到包含丰富短视频信息的特征用于分类。该模型在多模态情绪强度数据集CMU-MOSI上取得了的84.09%分类准确率,优于使用单一模态数据的分类效果,以及同类研究的其他方法。本文在上述研究的基础上,设计与实现了一个短视频标签标注系统,能够为数据库中的短视频自动标注标签,帮助构建短视频领域知识图谱,并服务于任务型对话系统,提供短视频智能搜索的功能。
其他文献
在“绿水青山就是金山银山”的战略谋划下,对水环境漂浮物进行监测以防治水污染已是燃眉之急。面向复杂水场景图像的语义分割方法是水环境漂浮物监测的重要支撑技术,因为语义分割可以细致地描绘漂浮物并提供精确的物体信息。复杂水场景中漂浮物种类繁多,语义分割方法面临数据层面和算法层面的挑战。在数据层面,现有水场景语义分割数据集多半仅顾及单一类别的漂浮物,导致基于现有数据集训练的语义分割方法面向多种漂浮物时既容易
学位
k-mer频次计数任务是生物信息学分析工作流的基础环节,可为表征生物序列上下文提供可用材料,应用场景包括序列组装、序列比对、序列修正、突变位点检测、公共祖先发现、模体发现、基因关联分析等等。随着测序数据规模不断扩大,k-mer频次计数算法所需的存储和时间开销已成为不可回避的问题。本文分别研究共享内存环境和天河超算环境下的大规模k-mer频次计数问题,主要内容如下:(1)针对共享内存计算环境,提出一
学位
跨语言词对齐作为跨语言领域的一项基础研究,专注于两个语种之间单词级别的对齐,是其他跨语言任务的上游任务和重要支撑。随着深度学习技术在跨语言领域的普遍应用,研究者们近年来在跨语言词对齐的研究上取得了巨大的进步,但现有的方法依然存在着以下不足:1)现有的跨语言词对齐方法大都依赖于语种词向量空间之间的同构性,针对低同构性的语种对任务,这些方法不能取得令人满意的效果。2)基于对抗式的无监督跨语言词对齐方法
学位
过去的几十年中,工业化工快速发展,伴随着的环境问题也越发严峻。海洋湖泊大面积遭到化学品污染,为了改变传统化工生产中的先污染再治理的生产方式,“绿色化学”和“可持续发展化学”的概念被逐渐引入科学研究和生产领域,因此寻找符合可持续发展、符合绿色化学要求的有机反应途径迫在眉睫。水不仅是自然界生命体系中化学反应的介质,还是理想的绿色溶剂。以水作为溶剂的有机反应,具有无毒、廉价、不易燃烧等优点。由于水具有诸
学位
生物序列的模体识别是在一组核苷酸或者蛋白质序列中寻找高度相似的、重复出现的保守短序列子串。模体识别对揭露基因表达调控、研究病变机制、发现分子的结构和功能都具有重要的生物学意义。它是一个NP难问题,通常分为枚举和概率两种解决方法。然而枚举方法较为耗时,概率方法在运行速度上更具有优势却容易陷入局部最优,因此本文针对基于概率的模体识别算法存在的问题进行研究,主要的工作内容如下:(1)提出了融合排序轮盘赌
学位
在当前时代的快速发展下,材料化学已经成为国家科技发展进步中不可或缺的一部分。而聚合物材料作为材料化学的重要组成部分,凭借着自身的优势,在材料化学的开发应用中发挥着至关重要的作用。在性能上,不同于小分子材料所具有的单一性,聚合物材料集结了众多单体之间的特点,在宏观上表现出更加优越的性能。基于这些研究,开发性能多样的聚合物材料成为研究者们关注的焦点。超分子化学作为一门新兴的学科,为构筑各种聚合物材料提
学位
命名实体识别是指从非结构化的文本中识别出具有特定意义的实体,可以用于挖掘非结构化文本中的重要信息。现有的研究提出了很多的识别命名实体的方法,推动了命名实体识别任务的发展。然而很多命名实体识别的研究忽略了文本中广泛存在的嵌套命名实体,使得一些重要实体未能被识别出来。为了识别文本中出现的嵌套命名实体,有研究者提出了基于区域的嵌套命名实体识别模型,这类模型会定位实体边界以获取候选区域并分类候选区域的实体
学位
随着互联网的快速发展,社交媒体上积累了大量的用户生成内容,这些用户生成内容是许多下游应用的重要信息来源。命名实体识别是从社交媒体数据中挖掘有用信息的关键技术,然而由于社交媒体上的文本通常较短且包含较多噪音,导致传统的命名实体识别模型在社交媒体领域表现不佳。近年来有研究者提出了多模态命名实体识别模型,旨在利用和社交媒体文本相关的图像信息辅助识别命名实体。虽然现有的多模态命名实体识别模型取得了不错的性
学位
关系抽取是信息抽取中的一项重要任务,关系抽取可以快速高效的从互联网海量无结构和半结构的文本数据中抽取出语义知识。在实际的应用落地场景中,关系数据的频率通常遵循长尾分布,其中少样本类别所占比例较大。一个面向实际场景的关系抽取系统既需要稳定可靠地识别拥有大量标注数据的头部关系概念,同时又能依靠少量训练实例高效地学习新出现的尾部关系,并获得能统一识别头尾类别的融合分类器。传统有监督方法、远程监督方法和传
学位
随着现代技术和材料的发展,用于生命、医疗领域的诊断及治疗手段不断更新迭代。盐键在生物系统的结构和功能上都起着至关重要的作用,这激发化学家使用盐键来构建多孔有机骨架材料。多孔有机盐(CPOSs)是有机碱和有机酸在盐键作用形成的超分子有机框架,其温和的合成条件、低成本、永久孔隙结构等特性,使其在药物输送和生物应用方面成为绝佳候选者。在近几年的研究中,分子识别、离子交换等策略被应用到将小的活性分子或无机
学位