基于内容的视频检索关键技术研究及实现

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:ITredfox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,得益于4G技术的普及、5G通讯技术日趋成熟以及移动智能设备的完善,视频数据与日俱增。如何从海量视频数据库中快速检索到用户感兴趣的视频已经成为信息化时代的一个有意义的课题。传统的基于文本关键字的视频检索方法难以满足用户日益增长的需求,因此,基于内容的视频检索方法应运而生。本文对基于内容的视频检索的关键技术进行了深入研究,主要包括关键帧提取、特征提取与表示。在关键帧提取方面,现有的算法存在以下缺陷:很难根据视频内容自适应地确定关键帧数量,关键帧的数量被限制为固定值,提取出的关键帧不能完全描述复杂的视频镜头中的内容;对摄像机的运动信息不敏感,导致关键帧提取的性能不稳定。在特征提取与表示方面,存在以下不足:传统的编码方法对高维特征进行表示时损失的特征信息较多,导致检索精度下降;卷积神经网络不能同时进行特征提取和哈希表示。本文针对上述问题,设计了高效的基于内容的视频检索算法。主要贡献如下:一、在关键帧提取方面,本文在传统的基于聚类的关键帧提取算法上作出改进,能够根据视频内容自动确定关键帧的数量。在视频任务常用的数据集和网络公开的视频片段上进行了实验,实验结果表明,本文提出的基于K-Means聚类的自适应关键帧提取算法,在压缩率和保真度两项指标上,表现明显好于文中的其他关键帧提取算法。二、在视频特征提取与表示方面,本文设计了基于池化的特征表示方法,对高维卷积特征进行降维表示。普通的池化是在同一特征通道上对特征图进行采样,信息损失较多。而本文提出的特征池化是针对不同通道的特征图进行采样,尽可能减少特征表示过程中信息丢失。实验结果表明本文提出的池化特征方法在检索精度上有一定优越性。三、在提升检索速度方面,本文提出一种基于深度哈希模型的特征提取与表示方法。该模型将卷积神经网络和哈希技术相结合,训练后可以直接提取视频帧的哈希特征。实验结果表明,在特征维度相同的情况下,本文提出的哈希算法在检索精度上明显优于文中的其他哈希方法,在检索速度上较其他的特征编码方法也有明显的提升。
其他文献
柔性相变执行器即使用柔性、可拉伸材料制成的相变执行器,在工业、医学、生物学、仿生机器人学等领域都有广阔的应用前景。本文设计、仿真并制备了两种结构的相变执行器,并搭建了三维重建系统,基于结构光三维重建检测技术对其应变性能进行了分析,主要研究内容如下:首先分析了相变执行器流体和超弹性体的模型,并设计了两种相变执行器的结构——单腔相变执行器以及双腔-微流道相变执行器,使用有限元分析(FEA)对这两种结构
指静脉特征识别技术凭借其安全性、易获取性、唯一性等优势在生物特征识别领域逐渐成为一个研究热点。但是限于拍摄环境、硬件系统和硬件成本,得到的图像其分辨率往往无法达到预期目标,分辨率低下的图像会严重影响识别系统的识别率。高分辨率图像拥有大量的图像细节,细节信息携带了丰富的图像特征,这对于指静脉图像的识别率至关重要。在这种情况下,通过基于学习的算法将低分辨率的图像转化为高分辨率的图像是一个可行的方案。图
物联网的快速发展,越来越多的物联网装置被部署到网络中负责数据的采集、存储、处理。在感知层的物联网装置负责收集用户的数据并传递,在网络中的物联网装置负责对数据进行处理。无论是感知层还是网络层的物联网装置均需要与其它装置进行互相通信,协作才能完成任务。在物联网装置进行通信前,数字标识作为其在网络中的身份证明,起着十分重要的作用。目前,物联网中主要采用注册服务器对物联网装置的标识进行集中管理。这种方式存
音频场景分类是对音频数据的识别和分类,即识别判断所记录声音的环境标签,可以应用于音频监控、异常发现和风险防控等多种安防监听系统。随着音视频监控等场合记录的音频数据越来越多,传统分类方法在面对大量数据时显现出了劣势,而此时深度学习技术则已被证明在利用数据特征和建立模式识别方面具有特定优势。本文以卷积神经网络为主要模型,从数据集和网络结构两方面对音频场景分类系统做出改进,分别在未引入更多数据量的前提下
换流站光测量系统远端模块的主要作用是实现该系统中电信号和光信号的相互转换,作为高压直流输电系统的核心设备,其运行可靠性对电力系统的安全稳定运行具有重要意义。然而,由于远端模块运行环境较为复杂,近年来因远端模块导致的超高压直流输电公司光测量系统故障频发。但目前对其运行状态检测及故障诊断技术的研究在领域内仍属空白,其失效趋势无法预测,运行状态难以判断,运维规范相对匮乏,设备全寿命周期管理无技术支撑。因
在互联网时代,人们获取图像的方式主要是通过搜索引擎在数据库中进行检索,但由于一句话可能对应很多不同的图像,所以很难找到想要的图像。随着人工智能技术的突破创新,文本到图像生成任务也具有了一定的可行性。文本到图像生成是一项涉及了自然语言处理与计算机视觉的跨模态任务,该任务的目标是不仅要保证生成的图像真实,而且要保证生成的图像与给定的文本描述语义一致。近年来,研究者以生成对抗网络(Generative
随着知识技能日新月异,让训练对象尽可能快的通过学习掌握技能和知识,以满足不同任务的需求,已经成为非常重要的研究课题。因为不同个体的学习能力有差异,而且会存在优先级高的对象个体,如何进行引导式自动学习,以提高学习的效率和质量,减少不必要的时间和物力消耗,已成为学术界和工业界共同关心的问题。为了解决传统式引导式学习方法的弊端,优化学习资源分配,本文在基于均匀采样学习算法和基于贪婪策略学习算法的基础上,
近年来,随着基于5G的物联网的发展,无线终端数量及其产生的数据呈现了爆炸性的增长。面对计算密集型的深度学习应用,集中式训练深度模型对计算性能和通信连接都提出严峻的挑战,迫切需要把计算资源前移至接近数据源的节点,以分布式的方式训练深度模型以降低对计算和和通信的资源需求。本文使用的分布式技术是交替方向乘子法(Alternating Direction Method of Multipliers,ADM
歌剧是集音乐、舞蹈、戏剧、文学、舞台艺术于一体的综合性艺术形式,产生于16世纪末的意大利。经过我国几代老艺术家不断地辛勤探索,在吸收外来艺术形式的同时与我国传统文化相结合,创造出具有中国民族特色的中国歌剧,《悲怆的黎明》作为新时代的一部大型歌剧,该剧的成功同时也激励了我国民族歌剧的艺术创作。《悲怆的黎明》描述了东北某公学一群热血青年为了新中国成立在战火中浴血奋战的悲壮历程,歌剧中的革命先辈们成就大
随着时代的发展,生产力的提高,有许多人从繁琐的工作中解脱出来,这一切则归功于工业机器人的发展。同时工业机器人技术也随之大幅度提升,人机交互技术也得到了快速的发展,其应用范围也更加的广泛,人机交互的方式也更加符合人与人之间的交互方式,如人脸识别、可对话的智能音箱等。这些交互方式大大减少了人体操作机器相关指令的操作,使人体能够更加自然的与机器进行交互,大大提升了人类使用机器时的舒适性。人机交互技术在可