基于深度学习的视频摘要方法研究与实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:nqqlove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着5G时代的到来、计算机技术和数字视频技术的不断发展,视频数据量与日俱增。因此,现实生活中出现了这一技术需求——能够大幅缩短视频时长同时保留原视频的主要内容。视频摘要方法的出现成功应对了这一需求,它可以减少人们浏览视频的时间,同时还节约了大量的存储空间。但是,目前视频资源种类繁多,每类视频都有其特点,例如对于电影电视剧而言,重要的是其情节,而监控视频在乎的是视频中的目标对象,这对视频摘要技术造成了巨大的挑战。为了能够达到更好的视频摘要效果,针对不同类别的视频,应采用相对应的方法,所以本文将种类繁多的视频分为监控类视频和非监控类视频。其中:监控类视频是用来记录环境中发生了的事件,记录的内容大多没有故事情节;而非监控视频主要产生于文娱场景中,大多记录的内容是有故事情节的。动态视频摘要算法可以用来处理非监控视频,能够在压缩视频时长的情况下保证情节的完整;视频浓缩方法能够处理监控视频,在缩短视频时长的同时保证视频中目标对象的不丢失。本文围绕动态视频摘要算法和视频浓缩方法展开研究,主要研究内容包括以下三个部分。(1)针对动态视频摘要,提出了一种基于anchor-based的两阶段动态视频摘要方法,解决了视频摘要任务中帧与帧之间信息利用不足的问题。该网络主要包括:特征提取网络、一维卷积神经网络和两阶段网络。特征提取网络负责提取每一帧的图像特征;一维卷积神经网络使用一维卷操作,有效地提取了帧与帧之间的信息;两阶段的网络结构,通过第一阶段的处理能够有效地减轻第二阶段的运算量,第二阶段对一阶段的结果进行更加细致的回归与分类,输出更加准确的镜头位置和镜头得分。与此同时,本网络在训练时使用了anchor机制。其中,第一阶段使用的是单一尺度的anchor,第二阶段使用的是多尺度的anchor。网络最终的输出通过anchor的回归来实现,大大降低了优化难度。(2)针对动态视频摘要,提出了一种融合自注意力机制的动态视频摘要方法,解决了基于anchor-based的两阶段神经网络中一维卷积神经网络仅能提取局部特征的问题。一维卷积神经网络虽然可以通过不断叠加网络的深度来获得帧与帧之间的信息,这本质上还是一种局部操作,仅能提取局部信息,但是自注意力机制能够进行长程操作,不需要借助外部的相关信息,凭借自身数据便能够获得序列数据内部的相关性,更加高效地获得了视频中帧与帧之间的信息。所以,通过使用自注意力机制能够使网络更加充分地理解视频,并且不需要增加网络的额外参数。(3)针对视频浓缩方法,设计了视频浓缩方法的具体步骤并进行实现,解决了关于监控视频冗长的实际问题。该方法主要包括以下步骤:运动轨迹提取、运动轨迹处理和运动轨迹融合。在运动轨迹提取步骤中,通过目标检测和跟踪算法获得视频中目标对象的运动轨迹;在运动轨迹处理步骤中,对目标对象的运动轨迹进行重新排列,并使用语义分割算法筛除其中的冗余信息;在运动轨迹融合步骤中,利用背景建模获得视频的背景,再将重新排列后的轨迹与背景进行融合,得到最终的浓缩视频。
其他文献
近年来,由于光子轨道角动量(Orbital Angular Momentum,OAM)具备正交性和高维性,基于OAM态的高维量子通信及基于OAM态的复用光通信(不需要额外的带宽)都引起了广泛的关注,其中精确的OAM态检测仍然是一个重要挑战。本文针对于光子轨道角动量的拓扑荷检测、轨道角动量光束的强度和相位捕获进行了研究,主要工作和成果如下:(1)考虑到OAM光束具有螺旋相位结构及其Gouy相位特点,
学位
随着第五代通信技术以及智能设备的突破性发展,以图像、文本、视频为主要内容介质的多媒体数据呈现出海量式增长的趋势。在多媒体数据的发展趋势下,人们对人机交互的体验模式提出了更深层次、更多维度的业务需求,跨模态检索技术应运而生。传统的跨模态检索仅仅涉及图像、文本等单一视觉感知的模态内容,无法满足VR、远程医疗、自动驾驶等新一代应用需求。因此,为了将人机交互的沉浸式体验推至新的维度,本文拟将人类三大感知之
学位
随着三维重建技术在逆向工程、生物医疗和虚拟现实等领域的广泛应用,重建过程中的三维物体数字化处理成为当前研究的热点。在三维物体数字化过程中,点云对齐十分重要,其一般可分为粗对齐和精细对齐两个步骤。粗对齐利用算法提高两片分离较大的点云间重叠率,为后续精细对齐的成功提供基础。受点云内部的复杂特性以及噪声等因素的影响,传统粗对齐算法的对齐效果和鲁棒性存在较大的改进空间。近年来,深度学习的广泛流行为点云对齐
学位
斜拉桥的运行状态关系到国家经济发展和人民生命安全,需要定期对拉索进行检测和维护,因此研究斜拉桥拉索损伤检测及其评估方法意义重大。斜拉桥拉索是由导磁性能良好的高碳钢制成,适合使用漏磁检测方法对其内部钢丝的损伤进行检测。本文在分析当前国内外斜拉桥拉索漏磁检测技术研究现状的基础上,提出了一种螺旋爬升模式下的拉索断丝漏磁检测方法,主要研究内容如下:首先,在分析拉索的损伤以及无损检测方法及其局限性的基础上,
学位
移动边缘计算(Mobile Edge Computing,MEC)通过将存储、计算能力下沉到移动边缘节点,提供一个高性能、低延迟与高带宽的电信级服务环境,加速网络中各项内容、服务及应用的分发和下载,让用户享有更高质量网络体验。但随着车联网、自动驾驶等移动应用的兴起,由于边缘节点的网络覆盖范围有限,当用户移动到其他边缘节点覆盖范围内时,会导致与本地边缘云的网络连接变差,从而降低服务质量(Qo S)或
学位
近年来,由于奇异系统不仅可以刻画动力学系统的动态特性,还能表征系统的静态约束,因而被广泛用于描述实际系统。而随着数字计算机技术的发展,实际系统的输出往往采用采样保持模式进行测量和传输,由此提出的事件触发机制不仅能够保证系统的性能,而且能有效节省通信资源。更重要的是,虽然随着计算机技术的提升,工业系统朝着大规模、高性能等方向发展,但仍然不可避免地会发生故障,因此如何尽早检测出系统的故障一直是研究的热
学位
随着手机芯片技术的快速发展,智能终端已逐渐转变成具有通讯和娱乐功能的强大设备。传统的移动云计算(Mobile Cloud Computation,MCC)因为服务器离用户设备(User Equipment,UE)较远导致UE的实时应用无法满足,所以人们只好将服务器下层到网络的边缘,使其能够在靠近UE的位置提供服务。移动边缘计算(Mobile Edge Computation,MEC)技术因此而生,
学位
钙钛矿太阳能电池(PSCs)由于效率高、成本低、可溶液法制备等优点近年来受到了科研工作者的广泛关注。钙钛矿太阳能电池虽然发展非常迅猛,但仍然存在一些问题阻碍着电池能量转换效率(PCE)的进一步提高,如界面缺陷、界面能级不匹配等。二氧化锡(SnO2)是目前应用于钙钛矿太阳能电池中最常见有效的阴极界面材料,尤其是应用在高效的n-i-p结构中,其可以很好地改善阴极界面质量,提高电池性能。但SnO2表面存
学位
随着信息技术的发展,人们越来越重视自身的信息安全和生命财产安全,VR监控得到大家的广泛关注。但是VR监控仍面临许多问题,其中采集端全景图像融合技术是限制其广泛应用的瓶颈。本文面向VR监控领域,针对多路摄像机时钟不同步与运动前景导致的配准精度低、融合质量差等问题,提出基于先验驱动双向补偿的图像配准算法与考虑时空关系的最佳缝合线算法。所提算法可更好的应用于VR监控领域,主要内容如下:(1)对VR监控的
学位
四旋翼无人机因其优异的性能和低廉的成本等优点,在军事、民用和商业领域的应用越来越广泛。但其在飞行过程中易受到风扰、执行器故障、模型不确定性和输入饱和等诸多问题的影响,因此本文针对存在扰动、执行器故障和输入饱和的四旋翼无人机数学模型,设计复合抗干扰控制器,具体研究工作如下:首先针对四旋翼无人机中存在的扰动和执行器故障问题,通过观测器结合非奇异终端滑模控制的方法提出了一种针对无人机系统的复合抗干扰容错
学位