基于时空兴趣点的人体行为识别与预测

来源 :东南大学 | 被引量 : 0次 | 上传用户:zhxg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体行为识别与预测是计算机视觉领域最有应用前景的研究方向之一,它的目的是利用计算机技术自动地识别和预测已经完成或正在进行的人类运动行为,包括个体行为、群体行为以及人与外界之间的交互行为。相关理论研究在智能监控、人机交互、运动分析、虚拟现实等方面具有广阔的应用前景和巨大的市场需求,因此受到来自工业界、学术界、商业界以及安全机构等领域的广泛关注。人体运动行为模式的研究将给人们带来全新的生活方式。  近年来,人体行为的描述方法层出不穷,其中基于时空兴趣点的行为表示方法最为流行,该方法简单可靠,对于噪声、遮挡以及几何变换都具有较强的稳定性。虽然基于时空兴趣点的识别方法已经取得了很大的进展,但是仍然存在一些急需解决的问题。时间顺序信息对于运动行为的描述十分重要,传统的时空兴趣点特征仅仅描述单一兴趣点特征,丢失了大量时间信息,挖掘描述性更强的底层特征是行为识别问题的基础。对于复杂背景下的运动行为,如何区分出目标特征和背景特征并且筛选出各个行为类别中具有较强代表性和区分性的特征仍然是一个开放性问题。另外,传统的行为识别问题主要针对完整的运动行为,如果目标视频是一个正在进行的尚未完成的运动行为,这就产生了行为分析领域的一个新的问题——行为预测。本文工作主要针对以上问题,提出解决方案,论文的主要工作和贡献如下:  (1)提出一种基于线性动态系统的局部时空区域描述子。线性动态系统可以描述动态纹理变化,反映运动时间信息。根据这一特性,我们提出采用线性动态系统来描述时空兴趣点周围区域的特征。由于线性动态系统特征不存在于欧氏空间,所以我们利用核主角来度量线性动态系统特征之间的相似性,再采用多类别的谱聚类算法对视频中提取出的局部动态系统特征进行聚类,在BOW模型的基础上产生初始的词汇表。进一步,我们提出一种有监督的词汇表优化方法,通过扩大类间距离同时减小类内距离来保留各个类别中区分性较强的视觉单词并且抑制噪声。实验结果表明,相比于经典的梯度和光流特征,本文提出的基于线性动态系统的局部时空区域描述子可以获取视频中更多的时间信息,提高识别准确率。  (2)提出一种基于多字典稀疏表示的有监督分类方法。不同的行为类别含有不同的具有代表性的行为特征,传统的基于单一字典的稀疏表示模型不容易区分这些特征,因此我们提出基于多字典的稀疏表示模型,使得每个行为类别具有各自专属的词汇表。该模型通过在原有的基于L1范数稀疏表示基础上增加样本间的相似性约束项来获取类内行为的共性特征,通过增加不同类别字典之间的差异性约束项来区分不同类别行为之间的差异性。另一方面,我们提出分类损失函数,对多个字典进行同时优化,学习出对于各个类别具有代表性的行为字典。实验结果证明,基于多字典的稀疏表示模型对于分类问题更具有针对性。  (3)提出一种基于高层行为单元的行为表示方法和基于组稀疏的高层特征筛选方法。传统的底层特征对于复杂运动行为的描述存在局限性,我们在底层时空上下文特征的基础上,利用基于图模型的非负矩阵分解算法将一个完整的运动行为分解成多个简单的行为单元。我们认为来自同一类别的运动行为应该具有相似的行为单元,基于这个理论,我们提出基于L2,1范数组稀疏的行为单元筛选方法,保留各个类别中具有代表性的行为单元。实验结果证明,本文提出的基于行为单元的行为描述方法能够有效提高分类精度。  (4)提出基于带有时间权重的广义时间规整的行为预测算法。现有的大多数行为识别算法都是分析一段完整的人体行为视频,行为预测则是判断正在进行中的运动行为类别。不同于完整运动行为的识别问题,尚未完成的运动行为缺失很多运动特征,而且相对于完整行为的时间进展也是未知的。我们提出基于时间规整的算法,将不完整的行为视频与完整训练视频的前面部分做匹配,根据匹配误差,采用KNN算法来对待预测的运动行为做分类。实验结果证明,本文提出的带有时间权重的广义时间规整算法可以有效预测尚未完成的运动行为类别。
其他文献
浮子流量计是一种传统的变截面流量计,具有结构简单、工作可靠、压力损失小且稳定、可测低流速介质等诸多优点,广泛应用于测量高温、高压及腐蚀性流体介质。但是目前在浮子流
科技发展到今天,语音处理已经与人们的日常生活密不可分。随着语音信号数字化,网络化浪潮的到来,VoIP系统逐渐风靡。VoIP(Voice over IP)是一门快速崛起的语音通信技术。它使
说话人识别是根据人特有的语音信号来识别出说话人身份的一种生物认证技术,在说话人识别技术中,关键在于两方面:其一,如何从数据量相当大的原始语音信号中提取出反映说话人个
配电网状态估计是配电管理系统(DMS)的一项重要的高级应用功能,是通过一些可以获得的量测数据估计另一些未量测的信息,从而将配电系统的信息补充完整,为分析和决策服务的过程。 首先实现了一种适用于配电网状态估计的基于节点电压法的潮流计算方法,既可以进行辐射状配电网潮流计算,又可以进行环状和网格状配电网潮流计算。 将配电网分解成若干区域,在各个区域端点的量测数据和区域内反映各个用户负荷的统计
随着科学技术的高速发展,对设备和被控系统的安全性、可靠性和有效性的要求也越来越高,有关复杂系统故障诊断技术的研究愈来愈受到重视,已成为国际自动控制界的热点研究方向之一
大型火电单元机组是一个高度复杂的大时滞、慢时变、并具有不确定性的被控对象,特别是锅炉侧存在着很大的迟延和大惯性,常规的PID控制器在处理大迟延对象上很难获得令人满意的控制效果。预测控制对处理大迟延对象具有独特的优势,本文将广义预测控制应用于协调控制系统锅炉主调节器中,在广义预测控制原理的基础上,提出了两种改进的广义预测控制算法:一种是具有预测误差及误差变化率校正的增量型广义预测控制算法;另一种是基
厚度精度是板带产品的重要质量指标之一,随着轧制理论和控制理论的发展,以及它们在轧制过程中的应用,板带产品的厚度精度有了很大的提高,但是实际系统应用过程中还有许多具体
本文以中频汽油发电机为背景,研制了一种新型的单极性调制的恒频恒压逆变电源。这种电源与中频发电机配合工作,为需要备用电源和流动作业的场合提供了方便的电能。论文首先对现
人类视觉感知是一个鲁棒性很强的、能抵御实际中各种变形和噪声干扰的具有良好容错性的文字识别系统。近年来,围绕手写体汉字图像识别的研究在很多方面已取得了重要进展。但
光流场是指三维空间的运动物体在二维平面上的投影的瞬时速度,是图像平面上的速度场的直接表现。通过光流场可以获取图像中物体的运动和结构信息,并解决模式识别等学科及航空等