基于CNN的压缩视频分类研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:ling401
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术和计算机视觉技术的飞速发展,在许多实际应用中如机器人、自动驾驶汽车增强现实和物联网,视频分类已成为这些任务的核心问题。同时,视频分类任务常常需要在有限的内存资源和计算能力的设备上实时执行,以满足用户需求。而传统视频分类方法中的特征提取较为繁琐,且需要根据任务的特性尝试各种方式来决定最适合描述不同类别的特征,这是一个相当耗时的过程。另一方面,目前主流的视频分类方法是将视频完全解码成RGB图像帧,这种方式虽然具有一定的效果,但会导致存储占用大且计算消耗时间成本高。近年来,越来越多的研究开始探索一种新的方法,即如何从压缩域中学习视频中的动作信息,以保证分类精度的前提下达到较高的效率。本文针对深度神经网络计算复杂度高的特点,提出了一种在计算速度和分类精度之间进行合理权衡的方法,用于视频分类任务。(1)针对传统双流卷积网络中的密集光流特征提取过程较为复杂的问题,提出了采用压缩域中运动矢量(MVs)代替光流的方式,重新设计了双流CNN结构的深度神经网络模型,并利用运动矢量对视频序列进行时间建模。实验中我们选择VGG-16和Res Net-50两种基础网络结构对特征进行提取,并使用预训练模型和微调网络权值的方法来代替直接训练和分类的方法,结果表明我们提出的双流CNN结构可以较好的提升视频分类的精度。(2)针对视频中每帧视频特征图的计算,我们为了增强对于视频特征图的聚焦信息引入了注意力机制算法,分别对通道注意力机制、空间注意力机制进行探索,通道注意力机制使用池化保留图像中的小部分信息,空间注意力机制会为特征图的关键信息部分分配更大的权重,我们分别在MV上探索通道空间注意力机制和空间注意力机制以提升对目标细节上的关注,抑制其他无用噪点信息,实验结果验证了注意力机制在所提的双流架构中的有效性。(3)引入知识蒸馏对双流卷积神经网络模型进行校正与增强。通过对有预训练模型的RGB和无预训练模型的MV效果对比,以及多个不同帧下MV增强的效果实验,提出以知识蒸馏思想为基础的三种最优的融合策略:AEMS、AAMS、OAMS。实验结果表明采用知识蒸馏策略可以有效提升模型性能,即在top-1、top-5均有显著提升。
其他文献
随着城市建设的快速发展,许多高层建筑应运而生,原来的城市供水已不能满足高层居民的用水需求,因此二次供水系统已成为必不可少的设施。二次供水系统是城市供水管网系统的重要环节,是保证城市高层住宅正常供水的优势,体现在很多方面。许多早期的二次供水系统的供水性能存在严重问题,包括高层建筑设计设施老化,系统设计不良,管理不到位等一系列问题,对高层住宅水质造成严重影响,给整个城市的供水系统带来了巨大的隐患。因此
社交网络的普及使得垃圾邮件发送者在平台上无处不在,一是垃圾邮件挤占了网络有限的硬件资源和信息传输渠道,影响了网络有效信息传播的效率,严重降低了用户体验;二是垃圾邮件还会对合法用户构成多重安全风险。社交网络平台通过技术手段对垃圾邮件发送者进行过滤,然而,互动形式多样化和用户关系多维化都使得有效检测垃圾邮件发送者的难度加大。本文提出一种基于图神经网络(Graph Neural Network,GNN)
近年来随着互联网平台的开放,各个平台为了提高其与用户的黏性,都开通了相应的社交渠道,广大用户可以自由地发表个人意见和观点。然而,一些用户利用互联网平台的跨时空性和透明性等特点,违反网络平台管理条例,肆意发表不利于国家稳定发展、社会安定团结、有损他人身心健康的毒性言论,对社会造成了不良影响。网络言论毒性识别对提升用户体验、网络环境净化和促进国家社会的健康发展具有重要意义。为了有效解决毒性言论在网上肆
数据采集卡作为测试测量设备的一种重要仪器,在航空航天、工业控制等领域中得到了广泛应用。当前国内市场上的数据采集产品所用的集成电路芯片长期依赖国外供应商,而且大部分受制于美国公司。随着中美贸易战的不断升级,关键芯片被“卡脖子”的风险越来越高,因此研制一款基于国产芯片的数据采集卡愈发重要。本论文旨在研制一款基于CPCI总线的国产化扫描AD模块。该模块具有32路差分通道,采样分辨率为16位,单通道最高采
近年来随着人工智能时代的来临,机器学习作为人工智能的核心及实现方式也得到了全面的发展.机器学习通过使用各种算法对大量的数据进行训练,从而学习如何完成任务,使得机器变得更加智能.聚类分析和半监督分类分析作为机器学习的重要学习任务之一,更是得到了研究者们的广泛关注.本文分别提出了一种新的平面聚类和半监督分类算法,以解决目前聚类分析和半监督分类分析中存在的问题.具体的研究工作如下:(1)在聚类方面,传统
在人类基因组中,基因的表达水平和表达模式表现出巨大的多样性。尽管已经发现基因表达可以由转录因子(Transcription factor,TF)和其他调控因子共同控制,但解密其复杂性仍然是一项艰巨的任务。在真核生物中,多种转录因子可以协同结合不同种顺式调控元件来调控靶基因的表达水平。为了系统的分析转录因子组合与基因的表达水平之间存在的关联,本文基于GM12878和K562两种细胞系的表达谱RNA-
当今时代,以信息技术为核心的数字化工作模式日益盛行,各企业单位也紧随潮流不断创新,而传统资源管理方式具有不便共享、不便查阅、不便管理及易丢失等问题,所以线上智能知识资源管理需求应运而生。本文设计的基于云服务平台的数据知识资源管理系统,不仅解决了传统方式存在的问题,而且保障了企业知识的内部共享,提供了一个便捷、有效的资源管理平台。本文主要研究内容分为资源推荐、搜索引擎实现、手写笔记识别以及同步消息反
卷积神经网络在许多图像处理问题中应用广泛.它针对图像中每一个像素点进行计算,经过多层卷积后得到的高层次特征,这些特征对于图像语义分割至关重要.计算机利用这些特征可以自动从图像中分割出目标和背景,并识别出图像的目标物体的位置.由于经典的全卷积神经网络FCN和U-Net经常会在细胞核分割过程中错误地识别模糊的目标.因此在这篇论文中,本文将使用改进的U-Net网络结构解决细胞核语义分割中产生的问题,并做
针对传统工作流系统不能有效处理海量数据的问题,将工作流引擎与云计算相结合是行之有效的解决方案。然而,目前的云工作流引擎系统还存在着云资源利用率低、可移植性和可重用性差以及系统开发运营成本高等问题。为了解决这些问题,论文对IC-Flow Engine(Inner Mongolia University Cloud Workflow Engine)2.0系统的集成架构和底层云资源利用率进行改进和优化,