面向无约束视频的人体动作识别技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:fq8628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频人体动作识别是计算机视觉一个活跃的研究领域,在基于内容的视频检索和理解、公共场所的智能监控以及高级人机交互等领域具有重要的应用价值。   视频人体动作识别(Human Action Recognition)指用一组动作标签对视频中的人体动作进行自动标注的过程。早期主要针对有约束视频(Constrained Video),即专门为科学研究在实验室环境中拍摄的视频。近年来,研究者将注意力转向无约束视频(Unconstrained Video),包括电影电视节目、监控视频以及业余摄像者拍摄的各种生活视频。相对有约束视频,无约束视频中背景干扰强,对运动主体的分割和跟踪更加困难,同类动作的类内差异大,给视频动作识别带来了新的挑战。面向无约束视频人体动作识别的研究对于推动该领域研究从实验室走向实际应用起着非常重要的作用。   然而,现有的视频动作识别方法大多面向有约束视频,针对复杂背景滤除的研究较少,视频的表示方法可扩展性不强,分类算法相对简单。为提高无约束视频动作识别的准确率,本文对复杂背景的滤除、视频的表示和分类算法等关键问题进行了深入研究,取得了如下研究成果:   1基于隐式运动模型的复杂背景滤除方法   为消除无约束视频中复杂运动背景对人体动作识别的干扰,本文提出了一种基于隐式运动模型的复杂背景滤除方法,利用局部特征位置信息有效地区分视频中的运动主体和背景。该模型采用非参数的方式记录局部特征原型相对于动作中心的位置分布,将测试视频中的局部特征和原型进行匹配,获得动作目标的位置,并以“软分类”的方式计算反映每个局部特征重要性的权重,以滤除背景上的局部特征噪声。实验表明,该方法能够在一定程度上克服视频中的背景干扰,使动作识别准确率提高达5.8%。   2基于混合高斯模型的视频表示方法   广泛采用的基于词袋(Bag of Words,BoW)的视频表示方法存在信息丢失和词表依赖等缺陷,导致其不适合复杂多样的无约束视频。针对该问题,本文提出了一种基于混合高斯模型的视频表示方法,将视频的局部特征集合所包含的信息拟合成一个在局部特征空间上的概率分布。在此基础上,引入基于信息理论的距离度量方法,提出了基于Kullback-Leibler距离和Jensen-Shannon距离的视频距离度量方法。实验结果表明,本方法能够很好地保留特征空间的连续性,一定程度地减少信息丢失,使识别准确率提高达6.7%。此外,由于本方法无需任何全局信息,相对于传统方法,更适合于无约束视频。   3基于局部多核分类器集成的人体动作识别方法   针对无约束视频中类内差异大的问题,本文提出了一种局部多核分类器集成的人体动作识别方法,将分类器集成的思想和多核学习融合成一个整体。为充分利用多特征之间的互补性,该方法首先建立一种子空间模型,将多特征样本空间划分成一组子空间,并在每个子空间上学习一个多核分类器,最后基于子空间模型对多个局部分类器进行集成。实验结果表明,本方法能有效解决无约束视频类内差异大的问题,并充分发挥多特征的优势,在不同无约束视频测试集上准确率提高达5%~11.7%。   综上所述,本文在分析目前无约束视频人体动作识别研究中存在问题的基础上,对背景滤除、视频的表示方法和分类算法等关键问题提出了解决方法,提高了人体动作识别的准确率,研究成果对视频运动分析具有重要的参考价值。
其他文献
随着信息技术的迅速发展和网络的普及,信息技术对于经济的发展和科技进步产生了深远的影响。考试是教学活动中的一个重要环节,它用来检查考生掌握所学知识的情况。由于考试的
空间数据挖掘也叫大规模空间数据库知识发现,是指对空间数据库中隐含的知识、空间关系或其他非显式的模式的提取。由于空间数据库固有的海量性特点,空间数据挖掘面临的主要挑战
近年来,结合了通用处理器的灵活性和专用集成电路的高效性优点的可重构计算技术获得了广泛深入的研究,它具有灵活高效的结构,非常适合多媒体运算和信号处理等计算密集型任务
可计算设备种类的多样化以及数字通讯方式的迅速变革,给面向群组的应用提供了良好的平台。针对如数字会议系统,基于文本的通讯工具,计算机协同工作系统等的群组应用,开发者需要谨
相较于单处理器的执行平台,多处理器的执行平台由于可以提供更强大的处理能力而正在被越来越广泛的应用到各类实时系统中。例如,越来越多的嵌入式系统使用多处理器的平台来执
随着计算机多媒体技术和数字图像处理技术的迅猛发展,人们对数字图像的分辨率要求越来越高。高分辨率图像不但更加清晰,而且包含着更多的细节,而这些细节在许多实际应用中不
随着网络和多媒体技术的发展,各种图像和视频数据呈爆炸式的速度增长。视频语义概念检测是实现从底层特征到语义概念映射的机器学习问题。在视频语义概念检测中,新视频数据的不
三相永磁同步电机由于存在诸多优点,使其在交流伺服控制领域得到极其普遍的应用。在伺服电机驱动负载运行时,电机与负载间的连接装置传动轴往往不是完全刚性的,这就会引发伺服控制系统间的柔性传动,柔性传动必然会产生机械谐振。机械谐振的存在会使伺服控制系统的转速与电磁转矩发生明显且持续的震荡现象,这样就会影响到当前控制系统的控制精度、响应速度等,同时在某种程度上会限制系统频带响应宽度的提升,严重时会致使系统失
用于数字媒体版权保护的数字水印技术得到了学术界的广泛关注。通常来说,水印嵌入过程会给载体媒体带来不可恢复的失真。虽然说这些失真在大多数情况下是非常细微且不可察觉的
数据是实验室的命脉,随着互联网技术的发展,现代实验室对数据管理领域的要求也在不断改变。传统的以人工干涉为主的实验室数据管理模式受到不断的冲击,人们对实验室中产生大量科