【摘 要】
:
大数据时代,图像、视频等视觉数据呈现指数级增长,传统的计算机视觉理论与方法面临着前所未有、日益严峻的挑战。而显著性检测作为智能视频处理中一项关键支撑技术,可有效定位图像、视频序列中感兴趣的目标区域,以便于从大量冗余信息中提取对当前任务有益的信息,为智能图像、视频处理中目标识别、场景理解、行为分析等高层任务提供可靠数据,具有重要的军事、商业和社会价值,已被广泛应用于智能安防、航空航天、人机交互、工农
论文部分内容阅读
大数据时代,图像、视频等视觉数据呈现指数级增长,传统的计算机视觉理论与方法面临着前所未有、日益严峻的挑战。而显著性检测作为智能视频处理中一项关键支撑技术,可有效定位图像、视频序列中感兴趣的目标区域,以便于从大量冗余信息中提取对当前任务有益的信息,为智能图像、视频处理中目标识别、场景理解、行为分析等高层任务提供可靠数据,具有重要的军事、商业和社会价值,已被广泛应用于智能安防、航空航天、人机交互、工农业生产、自动驾驶、医疗诊断等各个领域。基于深度学习的显著性检测任务当前面临的主要挑战来自于边界模糊、目标整体不完整、复杂现实动态场景中遮挡、运动模糊以及人类在动态场景中视觉注意行为固有的复杂性。本文从互补信息融合的角度出发,对显著性检测方法进行了深入探索,研究内容如下:(1)针对目前图像显著性检测算法对边缘检测性能不佳的问题,本文的工作一提出了基于孪生网络的显著性检测方法,同时关注于目标的边界和图像的显著性目标区域。设计了边界特征学习模块和密集协同融合模块。边界特征学习模块通过一个孪生网络提供鲁棒的显著性特征学习和边缘信息学习,密集协同融合模块则用于边缘和RGB模式之间的互补特征融合,以便有效地结合这两个模块学到的特征,达到跨尺度特征融合效果。在五个常用数据集上的实验评估表明,与目前的显著性检测方法相比,本算法在性能方面有明显的提高。(2)本文的工作二针对当前视频显著性检测对于时空信息学习不足的问题,提出了一种基于全卷积网络的端到端时空特征融合网络。该网络首先设计了图像表征增强模块,通过金字塔结构和一个轻量级的通道注意力机制为单张图像提供鲁棒显著性特征学习。在此基础上设计了时空信息学习模块,引入时空信息融合和视频相关滤波器来学习时空信息和后续输入组之间的内部交互信息。图像表征增强模块和时空信息学习模块的结合不仅增强了单幅图像的表征学习能力,还可以很好地学习到连续图像间的时空信息以及相关性。此外,本章设计了一种混合训练策略,以保持静态图像较强的特征表示能力。与14种最先进的方法进行了大量实验比较,结果表明本章算法达到了最优的检测性能。(3)针对视频显著性检测任务中时空信息特征提取跨域有限的问题,本文的工作三设计了一个多时域信息融合网络,用于协同推理短时域、长时域时空信息。从短时域角度出发,建立了一个短时域协同推理学习模块,用于在视频片段(5帧)中共同推理显著对象和学习局部时空信息。从长时域角度出发,设计了一个长时域记忆学习模块,聚合当前片段信息和临时保存的前段时空信息,从而更好地学习全局时空信息,进而获得更加鲁棒的特征表示。实验表明,该算法在视频显著性检测和无监督视频目标分割任务上都取得了较好的结果。
其他文献
海洋暖涡观测需要多智能体之间的协同以及任务分配,尤其是异构智能体之间的协同可以充分发挥不同智能体之间的特点。在多智能体的暖涡观测中,合理的任务分配可以保证系统以最小的代价完成全部任务,这是多智能体多任务问题的研究热点之一;路径规划是智能体在已知或者未知环境信息的前提下执行任务时,为智能体提供从起始点到终点的可行路线。以上述为前提,本文开展了面向暖涡观测的多智能体路径规划研究,主要研究内容如下:1、
全卷积孪生网络目标跟踪算法由于其很好地平衡了精度和速度的关系而得到快速发展。但是仍然存在一些难点限制其跟踪性能,如背景混杂、遮挡以及形变等。特别是在相似背景信息干扰下会出现跟踪漂移,而且现有的基于锚框生成的目标跟踪算法超参数多,带来额外的复杂度和计算消耗。此外,只利用卷积神经网络提取的单一层语义信息做跟踪预测会导致图像信息利用不充分,不能形成更鲁棒地跟踪,而简单的将多层特征自适应融合的效果并不理想
雾天能见度降低给高速公路的通行效率与安全运营带来了极大威胁,全方位高效的能见度检测对交通管理具有十分重要的意义。随着高速公路监控设备的普及,通过构建基于监控图像的能见度自动检测方法,能够在降低成本的同时实现密集的大范围检测。然而由于成像设备及成像条件存在差异,且监控图像特征与能见度类别之间具有复杂的非线性关系,如何依据图像进行准确的能见度检测是一项具有挑战性的任务。鉴于深度卷积网络优异的特征学习能
运动捕获数据作为一种新型的多媒体数据,在影视,游戏和医疗康复领域都得到了广泛应用。此类数据通过记录每一时刻人体关节点的位置和朝向,构成整个运动帧序列。由于其捕获到的人体位置信息非常的准确,能够在各种复杂的场景中刻画出人物模型的运动,给人以强大的视觉冲击,因此获得了大量用户的青睐。但专业的运动捕获设备价格高昂,所以只有大型的机构或公司才能完成运动捕获的任务。运动合成技术由于能够利用现有的运动数据,通
对于实际应用中的复杂系统而言,通常存在由于多种类型干扰的存在而造成的系统工作效率下降等问题,这种类型的问题也正是整个控制领域重点研究的问题之一。目前已有一些控制算法能够在一定程度上缓解效率下降的问题,但是一般控制系统中,控制器一旦设计完成之后,其参数不便更改。针对此类问题,在多种类型干扰作用的控制系统中,本文在上层通过规划与调度获取最优设定值,然后应用两层结构运行优化控制方法结合其它控制方法来优化
互联网技术的快速发展极大地降低了人们接收和发布信息的门槛。海量的网络文本包含民众对事件与商品的看法,通过大数据分析以及情感挖掘能够帮助政府了解事件的舆论走向,也能为推荐系统提供数据支撑。面对指数级增长的评论文本,传统的情感分析方法已捉襟见肘,因此本文以深度学习方法为基础,围绕目前情感分析中存在的文本特征表示不充分、不准确的问题展开研究,面向不同类型的情感分析任务构建更准确的文本特征表示方法,本文的
近年来,机械臂在现代工业制造体系中扮演了不可或缺的角色,随着生产工艺的提升,对机械臂的轨迹跟踪控制要求也越来越高,由于目前大多数控制研究只能使系统渐近收敛,研究高精度、快速收敛的跟踪控制算法有着重要的意义。本课题基于非奇异终端滑模(Nonsingular Terminal Sliding Mode,NTSM)有限时间收敛特性,将NTSM分别与神经网络、自适应控制、扰动观测器结合设计轨迹跟踪控制器,
联邦学习(Federated Learning)作为一种新兴的分布式机器学习范式,可以联合不同的组织或用户共同训练机器学习模型。具体来说,在保证整个训练过程数据一直保留在本地不被泄露的前提下,通过中央服务器协调大量客户端(例如手机、电脑和运动手环等)共同训练得到一个最优全局模型,在保护数据隐私的同时打破了数据之间的壁垒,以此来解决数据孤岛问题。不同于传统的分布式机器学习方法,联邦学习面临诸多严峻的
近年来,以大数据为背景的深度学习方法在机械故障诊断领域取得了令人瞩目的成就,为设备的智能故障诊断研究提供了重要途径。然而这些研究都是在训练数据充足的基础上实现的,模型的诊断效果受数据量的影响较大。在实际工作环境中,由于各种条件限制,为每种轴承状态收集和标记的故障数据可能会出现信息不充分的情况。具体来说,当故障样本远少于正常样本,会产生数据分布不均衡现象;而当各类轴承数据的绝对数量都很少时,表现为小
随着老龄化问题的日益严重,针对老人的看护问题已成为当下社会的研究热点之一。摔倒作为对老年群体健康威胁最大的因素之一,不仅会严重影响老年人的身心健康,还会给公共卫生事业带来巨大压力。依靠人力对老人进行看护效果虽好,但低效且占用大量医护资源。现有的基于视觉的摔倒检测系统普遍采用固定摄像头,此类系统无法在其视觉盲区对目标进行有效监测。针对以上问题,本文对行人跟踪算法与行人失稳姿态检测算法展开研究。首先,