基于多模态集成的视频可记忆性预测研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:whitewolf1573
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,人们会接触到大量的媒体信息,这些信息使人们的生活变得更加丰富有趣。同时,随着社交媒体平台的不断发展,视频的数量也呈爆炸式增长,不同的视频内容被人们记住的程度不同,令人印象深刻的视频内容具有很高的研究价值。因此,视频可记忆性的研究受到工业界和学术界的广泛关注。视频可记忆性是衡量视频片段被人们记住的程度性指标。研究者通常用视频记忆分数来量化可记忆性,即视频片段被人们普遍记住的概率。视频可记忆性预测任务通过构建模型来预测视频的记忆分数进而判断视频的可记忆性。由于视频的空间信息和时序信息非常丰富复杂,研究影响模型预测的关键特征是目前视频可记忆性预测任务的重要课题之一。除此之外,设计更高性能的视频可记忆性预测框架也成为当前视频可记忆性预测研究的主要任务。因此,本文旨在分析影响视频可记忆性预测的主要特征并构建更高预测性能的视频可记忆性预测模型框架。具体研究内容如下:(1)面向视频可记忆性预测的多模态特征分析本文将视频的原始数据、关键帧数据以及相应的场景语义数据分别视作视频、图像和文本三种模态,基于支持向量回归、随机森林回归和多层感知机三种常用的回归模型,分析了不同模态下的多种特征对视频可记忆性预测性能的影响。首先,利用3D卷积神经网络提取3D特征,分析该特征和运动模式直方图特征对视频可记忆性预测性能的影响。其次,分析图像的基本统计特征(颜色特征、纹理特征、边缘特征)和深度特征的视频可记忆性预测性能。再次,提取文本特征预测视频记忆分数,探究文本对可记忆性能的影响。最后,讨论了同一模态和不同模态的多特征融合后形成的全局特征对视频可记忆性预测性能的影响。(2)基于自适应多模态集成网络的视频可记忆性预测为了避免在特征层面进行融合导致的信息冗余问题,本文提出了一种基于自适应多模态集成网络(Adaptive Multi-modality Ensemble Network,AMEN)的视频可记忆性预测方法。首先,选择视频、图像和文本模态的个体学习器并计算不同模态的预测值,即利用微调的3D深度残差网络来预测视频模态的记忆分数,并采用随机森林回归算法和多层感知机模型分别得到图像和文本模态预测值。其次,优化三个个体学习器使其达到最佳预测性能。再次,该算法通过加权平均法集成三个模态的输出值来预测视频记忆分数。最后,本文提出了面向视频可记忆性预测任务的目标函数,计算预测值与真实值间的误差,同时利用随机梯度下降算法和误差逆传播算法自适应更新每个模态输出值的权重,直至模型收敛。实验证明,该方法能有效提升视频可记忆性预测性能。(3)基于端到端多模态集成网络的视频可记忆性预测本文提出了一种基于端到端多模态集成网络(End-to-End Multi-modality Ensemble Network,EMEN)的视频可记忆性预测方法。首先,选择并优化视频、图像和文本三种模态的个体学习器,即微调的3D深度残差网络、图像卷积网络和微调的文本卷积网络。其次,分别计算视频、图像和文本模态的预测值,根据模态预测值与真实值两者间的误差来分配各模态的权重。再次,利用加权平均法对模态预测值与权重值进行加权,进而得到初始的视频记忆分数预测值。最后,利用目标函数计算初始模型预测值与真实值的误差,更新每种模态网络的参数,再次计算模态预测值与真实值的损失,进而更新每种模态的权重值,迭代以上过程,直至模型收敛。通过消融实验和对比实验证明,该方法有效提升了视频可记忆性预测性能。
其他文献
新课改对于我国的人才培养提出了新要求,其中指出地理教育要培养学生的区域认知素养。在我国三级课程管理体系中,校本课程具有灵活性较强、与生活关联度较高的特点,是培养学生区域认知素养的重要方式。结合区域认知素养开发地理校本课程,有助于地理课程资源的完善、教师专业素养的提升以及学生核心素养的培养,推动济南市高中地理校本课程的发展。本文基于建构主义理论、区域地理理论、斯滕豪斯的过程模式,采用文献分析法、问卷
学位
互动是课堂的关键环节,互动的有效性直接影响学生的课堂学习效率。新课程改革后,高中地理课堂互动有效性整体有所提升。近年来,“艺考热”使艺体生逐渐进入大众的视野,高中艺体生地理学习有效性成为地理教师关注的重点。但是,艺体生文化课程学习时间主要集中在课堂,互动是高中艺体生地理课堂学习有效性提升的关键所在。因此,互动有效性提升有助于培养艺体生地理核心素养。本研究在国内外已有研究基础上,通过文献研究法、课堂
学位
《普通高中地理课程标准(2017年版)》中指出,普通高中课程的修订工作要遵循“坚持反映时代要求”的基本原则,“根据经济社会发展新变化、科学技术进步新成果,及时更新教学内容和话语体系”;并在教科书编写建议中提出地理学习内容的选择要“适当引入地理学科最新的研究成果”。在课程标准的指引下,最新版的高中地理教科书和新高考背景下的地理试题,其内容均在一定程度上渗透了地理科学的前沿研究。地理过程的微观研究是当
学位
图像配准是医学图像分析的前提,能够使两幅图像的相应结构在空间位置上保持一致。具体地,它是将一幅图像的相应结构配准到另一幅图像的空间位置坐标系上。医学图像配准是计算机辅助医疗的关键技术,在疾病检测、手术模拟与导航、基于图谱的结构分割、辅助治疗等医学领域发挥着重要的作用。尽管医学图像配准技术在近些年取得了良好的发展,但在配准精度与质量上仍然面临着一些问题。从数据层面来看,基于深度学习的图像配准方法需要
学位
地理教材由导入、正文知识、活动、思考等部分构成,活动题是高中地理教材中的一部分。高中地理教材是学生学习地理知识的基础且重要的工具,是教师进行创造性教学的有效参考,也是学生必不可少的学习资源。对活动题的有效利用也可以让教材的价值最大化,凸显教材的育人功能。教材难度是评估教材质量的一个重要方面,对教材活动题进行综合难度分析,可以从活动题难度方面反应教材的质量,为部分地区选择适合的教材提供参考。随着课程
学位
深度学习是促进学生全面发展、培育学生核心素养的重要途径,是我国课程改革走向深入的必需。课堂提问作为课堂教学中的重要环节,是促进学生深度学习的重要途径。探究深度学习下高中自然地理课堂提问,对于落实深度学习、提高课堂效率、提升课堂教学质量具有重要意义。本研究以建构主义学习理论、对话教学理论、情境认知理论、深度学习理论为理论基础,以某学校的高中自然地理课堂为研究对象,采用课堂观察法、专家咨询法、问卷调查
学位
休闲乡村作为休闲农业的重要组成,开辟了我国乡村区域经济发展新空间,拓展了乡村建设内涵。然而,随着休闲乡村建设快速增长,休闲乡村建筑存量明显增加。为保障休闲乡村建筑低碳与可持续发展,本研究从建筑层面探索了天津地区休闲乡村建筑性能化设计,从规划层面研究了村域建筑能源规划路径。首先,选取天津地区三个典型休闲乡村开展实践调研。采用了定性与定量分析方法,将村域休闲农业建筑划分为民宿、教育服务型与商业服务型建
学位
随着信息化时代的到来,图像数据成为人们重要的信息来源,在数据信息处理领域发挥着越来越重要的作用。由于单一传感器捕获的图像存在信息不足、目标不完整等缺点,多模态图像融合技术应运而生。图像融合技术能够将不同类型传感器采集的图像信息进行整合得到多模态图像,此图像可以最大限度的保留图像特征信息,能够在后续高级视觉应用领域更有优势。多模态图像融合常见的应用领域包括医疗MRI和CT图像融合、遥感MS和PAN图
学位
乡土地理资源被喻为联系课堂与生活的“桥梁”,是学生周围熟稔的地理素材。将乡土地理资源应用到地理教学中,可以丰富地理课程资源,优化地理教学,凸显地理学科的育人价值。地方依恋是人与地方相互作用而形成的正向情感联结,蕴涵着人对地方浓厚的情感、深切的依恋,是地理情感态度价值观的重要体现。鉴于二者的内在关联及其对于地理教学与学生全面发展的重要价值,将二者进行融合,聚焦地方依恋的培养,运用乡土地理资源进行教学
学位
为使蓄电池支架在轻量化的基础上能够满足汽车各工况下强度性能及要求,采用折衷规划法进行多目标拓扑优化,通过灰色关联分析法确定子目标的权重系数。首先在原始电池支架模型结构基础上,考虑实际装配和功能,建立了蓄电池支架初始拓扑优化模型;然后对其进行多工况和综合频率优化,并通过灰色关联分析法确定子目标函数的权重,运用折衷规划法进行多目标拓扑优化。最终得到的新模型质量比原模型降低10.9%,低阶频率及刚度有较
期刊