基于深度学习的视频显著目标人物检测算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:wisdomroc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂场景视频中显著目标人物的检测是目前信息技术的新兴研究方向,随着计算机科学及人工智能的高速发展,得到了广泛的关注。变电站检修、电网营业厅工作人员行为规范、火车站进站乘客身份核验、机器人自主行走等领域都需要快速准确的识别出场景中的显著目标人物,以便在后续的显著目标人物的跟踪、分割、动作识别等任务中将资源尽可能的分配给显著目标人物,实现对资源的最有效的利用。现有的视频显著目标人物的检测网络大部分是基于深度学习技术,主要采用光流法或LSTM(Long Short Term Mermory network)算法融合视频帧之间的时空特征,存在着对数据集要求高、检测精度和检测效率之间不平衡、显著性目标人物检测有效性低等问题。本文以人物视察、交流、演讲、开会、参观以及户内、户外运动等高清视频为研究素材,以视频中的显著目标人物为研究对象,通过理论研究和实验研究的手段来确定视频中的显著目标人物。本文致力于更深入彻底地研究视频显著目标人物的检测问题,力求提升显著目标人物检测的有效性、准确性与泛化能力。首先,针对视频中的人物,本文提出了一种基于快慢网络的记忆增强型全局-局部整合的视频人物检测算法——SF-MEGA(Fast and Slow network-based Memory-enhanced Global-local Integration Video Person Detection Algorithm),用以确定视频中的人物,排除人物之外的其他对象的干扰。该方法融合了视频的全局语义信息以及局部位置信息,并且采用长范围记忆模块来充分利用视频的全部时序信息。另外,本文所提出的方法模拟了人类的视觉暂留效应,设计的网络为快速网络和慢速网络按照一定的比例结合,快速网络提取当前帧的要点特征,慢速网络提取当前帧的详细特征,以此减少视频帧的冗余信息,极大的提高网络的检测速度。通过对比实验验证,在本文提出的数据集上对SF-MEGA及其他目标检测方法采用定性和定量的评估方法,验证了SF-MEGA对本文研究对象的有效性。其次,针对单一目标检测算法只能确定视频中的人物位置,无法提取人物之间的关系、显著目标人物区别于其他人物的特征等,也就无法确定视频中的显著目标人物的缺点,本文采用基于残差连接及GCNet(Global Context block)增强的视频显著目标检测网络——RGNet(Video Salient Object Detection Network Based on Residual Connection and GCNet Enhancement),对视频中的显著目标进行检测。本文提出的显著性检测包含了三个模块:具有残差连接的显著性优化网络、基于GCNet的递归增强模块以及以光流为导向的伪标签生成模块。首先,连续的视频帧以及标注的帧送入具有残差连接的显著性优化网络提取图片的空间特征,并且给出显著性检测结果。然后,本文在网络中增加了DB-Conv GRU(Deeper Bidirectional Convolutional Gated Recurrent Unit)模块,用以增强特征表示的时空关联,提取视频帧的时空一致性信息。并且在DB-Conv GRU网络中增加了GCNet自注意模块,将注意力机制引入到DB-Conv GRU网络中,提高时空特征预测的有效性,使网络自适应学习视频帧中重要的显著性信息。最后,本文设计了一个以光流为导向的伪标签生成模块,用以从稀疏标记的视频帧之中获取伪标签,这样可以降低对训练数据集的要求,减少对数据集的标注难度。本文所提方法在VSPD(Video Salient Person Detection)视频的数据集进行了测试,本文模型的平均绝对误差比BASNet、U-2-Net以及F3Net分别低12.50%、18.33%和7.53%,频率调整的显著性区域检测指标(Fρmax-)分别高5.69%、4.11%和4.12%。测试结果表明,本文提出的方法提高了视频显著性检测精度,并且具有较强的鲁棒性。最后,本文根据以上两种算法的特征,将以上两种特征进行融合,完成视频中显著目标人物的检测任务。实验结果表明,本文提出的多元特征融合算法可以有效地检测出视频中的显著目标人物,并且本文的算法在复杂场景下,能够快速准确地完成视频显著目标人物的检测任务。
其他文献
随着我国铁路网布局加密成型和列车牵引功率不断增加,铁路能源消耗急剧上升且电能质量问题日益严重。为缓解能源供需矛盾,解决电能质量问题,如何高效回收列车制动产生的可观再生能量,改善交流牵引供电系统因供电方式和负荷特性带来的负序、无功以及短时峰值功率高等问题已成为当前研究热点。传统的解决方案存在补偿容量大、控制策略过于复杂的不足,同时有别于地铁、轻轨等直流牵引供电系统,交流牵引供电系统自身存在的电能质量
高素质农民在实施乡村振兴战略的新时期下发挥了至关重要的作用,为巩固拓展脱贫成果、加快农业农村现代化发展提供有力人才支撑,在乡村振兴视域下,本研究全面梳理解读高素质农民培育政策并分析了山东省潍坊市培育现状。结果表明,在当前的实践中,高素质农民培育存在政策制度不完善、农民个体差异大、学工矛盾影响培训系统性、培训内容与需求脱节等问题。针对目前的问题,最后从加快城乡二元结构体制改革,精准实施高素质农民培育
高速电主轴是一种具有新型“零传动”形式的主轴单元,被认为是高速切削加工中最关键的高新技术,常被作为高速机床的核心功能部件。定量加载和加载力的准确测试是进行高速电主轴动态特性试验研究的前提,现有的接触式加载方式磨损严重、振动剧烈、噪声大且由于大量热的产生无法长时间运行,限制了电主轴加载的高速性和可靠性。现有的非接触式加载方式相关技术较少,成熟产品匮乏,亟需研究电主轴非接触加载方法,研制非接触加载装置
互联网物联技术的快速发展,使得“宅”经济、“懒”经济成为了当下热门的经济现象,其中餐饮外卖行业的大爆发就是典型的代表领域。“点外卖”已经成为当下非常普遍的生活方式。目前,餐饮外卖市场已逐渐形成以饿了么和美团为首的“2+N”市场局势,头部平台之间的核心功能逐渐同质化,平台的精细化运营和商家的自运营能力已成为关键竞争因素。外卖平台在一、二线城市的发展逐渐趋于饱和,越来越多的平台实行市场下沉策略,扩展更
本文针对脑卒中患者的运动功能障碍,设计了一种基于绳索驱动的步态康复机器人,研究了在重力作用下基于索并联机构的步态康复机器人设计与分析。为了限制非正常步态轨迹点的产生,研究了基于平行索构型的索牵引机构奇异位姿。根据索并联驱动机构的动力学方程和成对绳索的平行四边形约束条件,分析了该机构的两大类奇异位姿特点。为了保证终端执行器仅有三平移自由度(终端执行器不发生旋转),由每对绳索的平面法线组成的矩阵应该保
在自然界的非生命体中,存在着众多处于超低频的振动源,与这些振动源相类似的,许多生命体的运动也处于超低频段,如鱼类的游动、心脏的跳动,或者一些飞行生物的翅膀振动。如何从外界的超低频振动中获取能量来为超低功耗设备提供能源,一直是能量收集领域的一大挑战。本文基于仿生双翅类昆虫,设计了一种可调超低频压电振动俘能装置,并建立了俘能器的理论模型,研究了其非线性动力学特性及低频段能量收集性能。利用有限元方法分析
健康的身体离不开平衡的饮食,监控每日所摄入的食物很有必要。这不仅利于及时调整摄入食物的种类和数量,也便于进行营养流行病学研究。但传统的饮食监测方法主要靠用户的自我报告,这种方式既不方便也不准确。针对以非侵入性方式自动准确监测摄入饮食的难题,本文提出一种基于肌电(electromyography,EMG)和肌阻抗(electrical impedance myography,EIM)的吞咽信号同步测
大力开展高素质农民培育,是中国特色社会主义乡村振兴道路的内在要求,是实现农业现代化和建设社会主义现代化强国的内在要求。为做好这项工作,实施者的思想站位要高,培育体系要合理完善,要密切关注新农民的身份归属变化所带来的各种新问题,还要真诚关切一方人的乡土情怀和人文追求。
氧化锌(ZnO)材料由于其化学稳定性、热稳定性、优异的抗菌性能以及Zn元素作为生长所需的重要元素,广泛应用到生物医药领域。本论文比较了不同的氧化锌合成方法所得到的不同形貌ZnO样品的抗菌性能,并通过在氧化锌晶格内部掺杂铈(Ce)元素和海藻酸钠有机化合物的表面修饰等方法,改善了ZnO样品的抗菌性能,并推测了可能的抗菌机理。本论文主要包括以下三个部分:(1)采用热分解法、沉淀法、溶剂热法和溶胶—凝胶法
在以电气化铁路为主的铁路运输行业中,接触网在电气化工程中专门负责为动车提供运行动力,因此它的安全检查和维修方式尤为重要。当前大都采用专门检测装置检测铁路接触网组成部件的完整性,而该设备无法在站内股道使用,因此,有必要研制一种可以在站内使用的接触网巡检车。论文旨在开展站内接触网巡检装置控制系统方向的研究与设计。站内接触网巡检车重量轻、方便携带、运行稳定,适用于对站内等复杂铁路线段进行接触网悬挂装置检