基于多阶段网络的视频人体时序行为定位算法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:bobo1116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,随着监控技术的快速发展,大量视频快速涌现,有效保障人们安全高效的工作生活。与此同时,这也急需对视频内容进行分析。通常来说,人体行为实例是视频的主体,而监控视频包含大量不包括人体行为的无用片段,因此需要快速定位视频中包含的每个行为实例片段,以便更好地对视频进行有效的理解与分析。传统的机器学习算法需要人工设计特征,计算复杂度高且泛化能力差,难以准确地对人体行为进行分析判断。因此,本文基于深度学习方法,针对未剪切人体行为长视频的特点,构建了多阶段行为定位网络架构,从而提高人体行为定位算法的精准性和通用性。
  行为定位是指在未剪切长视频中检测出视频中包含的行为实例,并准确定位出行为实例发生的时间片段,但当前行为定位存在行为边界不明确,时序信息特征难以抽取,行为片段时间跨度大等难点。因此本文基于当前难点,完成以下的内容:首先,本文提出基于时序分割网络的底层编码方式,既保证带有视频信息的基础特征表示,又有效降低视频帧之间冗余特征的抽取。其次,本文通过引入双向循环记忆模块用于增强长序列特征之间的交互能力,并针对行为实例特点构建边界敏感网络,从而生成具有更高召回率的时序行为推荐,并且本文通过改进非极大值抑制算法阈值选取机制,使得不同候选行为推荐自适应地适配合适的阈值,从而解决不同时间窗口的候选推荐对阈值选择敏感程度不同的问题。最后,本文提出通过时间金字塔池化位置精修模块,既保证行为片段推荐特征图尺寸的统一,又解决特征过度损失引发表达能力不足的问题,并引入非参数化坐标偏移作为学习目标,提高了位置精修边界回归精度。
  为验证本文所提出的多阶段网络时序行为定位算法的有效性,本文使用ActivityNet1.3数据集进行相关实验。与单独的行为片段定位网络结构相比,本文提出的方法在 ActivityNet1.3中 AR@100和 AR@AN分别提升12.76%和10.49%。实验结果验证了本文改进后的网络能有效地提高对未剪切长视频中人体行为定位效果。
其他文献
云端融合计算是大数据发展的产物,是当前主流的一种计算范型,它是多种计算形态的结合,其发展经历了两个阶段,形成两种不同的架构:移动计算和云计算融合的云/端融合架构;边缘计算出现之后,终端、边缘节点、云计算中心三者结合的云边端融合架构。在云端融合中,计算迁移(Computation Offloading)是一种重要的计算模式,即终端设备通过向远程具有较强计算能力的设施(边缘节点或者云服务器)迁移部分计
学位
近年来,人脸检测和行人检测是计算机视觉中非常重要的研究课题,并且取得了相当大的进展。然而,基于二者的人数统计任务在实际应用中仍存在限制。人脸检测方法仅仅能够检测人脸,这就意味着当人背对着摄像头时,该目标就会漏检;同时由于室内场景的复杂性,身体的大多数部位都是不可见的,所以行人检测的方法同样不可行。而人头检测就没有上述限制。在人头检测领域,虽然已经有相关团队基于传统图像处理方法及深度学习方法对其进行
学位
从海量的数据中挖掘出有价值的模式是非常重要的研究领域。数据挖掘的早期研究主要集中在频繁模式挖掘,目标是识别出在事务数据库中出现次数较多的项目集。这些频繁的模式能够帮助企业更好的理解数据并且提供决策支持。然而随着数据丰富度的增加,模式的频次信息不能满足工业界的应用需求,因此面对复杂的数据类型和多样的属性信息,许多基于频繁模式挖掘的拓展研究被相继提出。其中,高效用序列模式挖掘是近年来重要的研究领域之一
随着城市交通系统建设的快速发展,目前无人驾驶技术受到了越来越多的关注。如何保证高速行驶的无人车的安全性成为了无人驾驶技术的研究重点之一。场景深度推断和自运动检测作为无人驾驶技术的两个关键问题,对它们的深入研究将有助于无人驾驶技术安全性与可靠性的发展。目前激光雷达和GPS等传感器被广泛应用于场景深度推断和自运动检测问题研究,然而,它们普遍存在成本较高、对噪声和对人为干扰敏感等问题。随着照相机技术的快
驾驶事故是当今社会最严峻的问题之一,约九成驾驶事故是由于驾驶员行为不规范引起,利用准确高效的监管系统可有效降低事故发生概率。但现有系统面临诸多问题:使用机器学习方法提取特征,计算速度较慢,时效性较差;异常驾驶行为样本过少,难以训练有效分类模型;现有模型结构单一,分类精度差强人意。因此,设计精度高,速度快的驾驶员行为分类算法尤为重要。  针对以上问题,本文提出基于深度学习的驾驶员行为分类算法,利用目
学位
近年来,随着深度神经网络研究的推进,人工智能技术也迅猛发展,尤其是计算机视觉相关技术。通过计算机视觉技术可以模拟人类视觉功能辅助监控和生产,因此数十年来研究人员一直在进行相关任务的研究。人脸年龄估计作为计算机视觉的研究方向之一,在人机交互、法律条款推进、广告投放以及安防监控等方面有着重大的影响和良好的发展前景。  人脸年龄估计是通过对输入的人脸图像进行判断得到具体年龄的过程。人脸年龄估计系统的准确
学位