基于时空特征的视频显著性预测方法研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:mywindjs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络和智能传感器等技术的快速发展,视频等多媒体数据呈爆炸式增长。如何快速有效地对海量的视频数据提取关键信息,给传统的图像视频处理技术带来了极大的挑战。人类在观察场景时,视觉系统可以迅速聚焦在视野中最重要的区域,并忽略无关的视觉刺激,这种能力称为选择性注意机制。视频显著性预测旨在模仿这种能力,在视频序列中预测可能引起人类视觉注意力的区域。它可以帮助计算机系统快速解析视频场景,定位感兴趣区域,常被广泛应用于视频处理、质量评价以及视频压缩等领域。传统的视频显著性预测方法主要基于手工设计的特征,显著性预测性能受到极大的限制。基于深度学习的方法可以自动学习并提取具有更强表达能力的特征,但是这类方法主要被应用在图像显著性预测,用于视频显著性预测相关工作较少。针对上述情况,本文结合深度学习方法的优势,围绕时空特征的提取与分析,开展了视频显著性预测方法研究。本文的主要工作如下:1)提出一种基于时空双流网络的视频显著性预测模型,模拟人类视觉信号处理的腹侧流和背侧流过程,将显著性预测分为空间流网络和时间流网络两个通路分别处理。视频帧通过空间流网络进行静态显著性预测。本文设计了一种深层2D CNN与浅层3D CNN级联的时间流网络,来提取视频帧间运动相关信息,用于时间域显著性预测。这种级联架构可以提高训练效率,降低数据需求,同时实现性能提升。最后利用融合网络来整合时空双流结果得到最终显著图。此外,本文设计了一种卷积高斯先验层,用于模拟人类视觉行为中的中心偏向现象,以提升模型性能。在两个公开的视频显著性数据集上,该模型与常见的显著性预测模型相比,可以取得更优的性能。2)提出一种基于时空循环神经网络的视频显著性预测模型,该模型能有效地利用帧内和帧间信息进行视频显著性预测。本文利用静态网络模型和动态网络模型,分别对视频帧提取空间和时间显著性特征。针对时间域和空间域特征的融合,本文设计了一种特征选择加权融合模型,该融合模型可以自动地学习在通道方向上对时空特征进行选择并分配不同的权重进行特征融合。此外,本文设计了一种注意力感知的卷积长短期记忆网络,用于对时空特征进行帧间关系建模并预测显著性区域,该网络可以处理连续帧的位置和内容关系,使得预测结果在时序上更加平滑和连续。在四个公开视频显著性数据集上,与常见的显著性模型相比,该模型能够取得更好的性能。3)提出一种基于时空特征与先验知识的快速无人机视频显著性预测模型。通过对网络模型的简化,以及对无人机先验知识的建模,实现了快速的视频显著性预测。本文设计了一种时空特征提取网络块结构,该结构分为帧内特征提取和帧间特征提取两个子模块。视频帧输入到该结构中,可以同时提取帧内静态特征和帧间动态特征。针对无人机视频场景,本文设计了一种多通路先验网络,用于视觉行为中的偏向现象建模。该模型同时整合了视频环境语义先验、数据观察先验和中心先验知识。此外,本文还设计了一种时序加权平均网络结构,通过简单的特征加权平均方式进行帧间关系建模,该网络结构能够使预测结果在时序上更加连续平滑。在大规模无人机视频显著性数据集上,与常见的显著性模型相比,该模型参数少(52 M)、速度快(显著性预测帧率大于300 FPS),并且能够取得先进的性能。
其他文献
城镇化是现代化的必由之路。新中国成立以来,特别是改革开放40年来,我国城镇化发展迅速,约6亿农业转移人口进入城市,实现了人类历史上最大规模的人口迁移,为人类减贫事业和世界城镇化进程作出了历史性贡献,走出了一条具有中国特色的新型城镇化道路。城镇化和工业化共同推动中国从“站起来”、“富起来”并向“强起来”的伟大转变,加速了中国的现代化转型,改变了中国的面貌和历史发展进程。但我们也看到,在城镇化快速发展
近年来,随着全球人口的不断增加和环境的不断恶化,粮食安全成为了全球各个国家关心的重要安全问题之一。水稻作为我国重要的口粮作物,其生长过程中的长势监测和产量的准确估计一直是研究人员重点关注的问题。对于水稻全生育期的地上部分生物量的变化过程进行监测,有助于农技人员判断水稻长势,实时调整田间管理措施,确保水稻处于最佳生长状态,也能为农技人员精确估产提供可靠的数据参考。无人机遥感技术以实时、便捷、无损观测
3D电影给用户带来了逼真的视频刺激,虚拟现实意图为用户带来真实的感受,然而,音频定位与视觉上的位置感知不一致,无法为用户提供身临其境般的享受。MPEG启动的3D音频标准化工作,极大的刺激了 3D音频的研究与发展。三维音频回放系统可以为听音者带来水平、高度和距离三个维度的感知,以及三维空间音效的包围感和沉浸感,是虚拟现实和多媒体领域不可或缺的重要组成部分。近年来,众多国内外著名高校、研究机构和标准化
芳香族碘代消毒副产物(DBPs)是一类在饮用水中普遍存在的新型DBPs。目前检测到的芳香族碘代DBPs按其结构主要分为四类:碘代苯酚、碘代硝基苯酚、碘代羟基苯甲醛和碘代羟基苯甲酸。毒理学研究表明芳香族碘代DBPs的毒性通常高于其同结构的芳香族氯代和溴代DBPs,同时也高于三卤甲烷(THMs)和卤乙酸(HAAs)等常见脂肪族卤代DBPs,因此它们已经引起了广泛关注。前人研究表明在氯胺化消毒中生成的某
图形化GaN、AlN或蓝宝石衬底,已被业内证明是提高薄膜质量的有效方法,而激光作为单步制备微/纳米结构的一种新方法已应用于很多领域。飞秒激光可以高精度、高效率地直接在材料上刻蚀形成小尺度的微纳图形;也可以诱导薄膜产生周期性微纳结构,实现快速无材料去除的高效图形化。另外退火是薄膜生长提高薄膜质量的常用手段,激光退火工艺在单晶硅制备中被广泛应用,因此探索利用激光对GaN类薄膜退火,实现提高薄膜质量的目
水利水电工程是国家清洁能源优先发展战略、全面决胜脱贫攻坚的重要一环,但工程建设所带来的潜在地质灾害诱发风险不容忽视。充分利用岩土工程勘探数据、全面掌握工程场地关键设计参数信息对于评估工程潜在地质灾害风险、拟定工程防治措施与应急预案具有重要意义。受技术经济条件限制,实际工程中关键设计参数如水力参数(渗透系数等)、变形参数(弹性模量等)、强度参数(不排水抗剪强度等)的直接勘探数据极为有限,这为工程安全
卷云在地气系统的辐射传输以及大气水循环过程中扮演着重要角色,对天气及气候变化起着重要作用。本文利用自主研制的多视场偏振拉曼激光雷达,结合武汉大学偏振激光雷达、无线电探空仪等仪器数据,详细研究了2019年3月至2020年2月武汉地区(30.5°N,114.4°E)的卷云性质。主要研究内容概括如下:(1)成功研制了一台多视场偏振拉曼激光雷达。该激光雷达系统共有三个回波信号接收通道:弹性平行光通道,弹性
党的十九大提出政治建设是党的根本性建设,决定党的建设方向和效果。虽然对这一问题的关注和研究是在此之后才开始兴起,但这并不意味着政治建设就是什么“天外飞仙”和“不速之客”,实际上在90多年党的建设史上,不管是处于“台前”显性发展,还是居于“幕后”隐性发展,它始终没有缺席,始终“在场”,并发挥着关键作用,形成了自身独特的生长和发展逻辑。研究党的政治建设史,即是要对这一逻辑进行梳理和剖析。本选题研究主要
健康是促进人的全面发展的必然要求,广大人民群众的共同追求;国民健康是经济社会发展的基础条件,是民族昌盛和国家富强的重要标志。中共中央、国务院发布《“健康中国2030”规划纲要》,提出了健康中国建设的目标和任务。儿童青少年心理健康工作是健康中国建设的重要内容。农村留守儿童是儿童中的特殊群体,由于长时间的亲子分离,临时监护人的关爱和监护力度欠缺,学校、社区提供的资源和保护力度有限等因素,导致农村留守儿
匹配交易是利用长期均衡的金融资产价格之间暂时性差异进行套利的交易策略。匹配交易是一种市场中性的交易策略,在多种高度相关金融产品中套利的交易算法,即投资者通过买入和卖出金融产品,对冲掉金融产品的市场风险,待买卖金融产品恢复至合理估值水平获利平仓。匹配交易的出现和发展,既是金融理论创新的结果,也是金融市场发展的必然产物。通过研究匹配交易策略和方法,一是提高和完善金融市场资源配置的效率。匹配交易平抑因投