论文部分内容阅读
动作识别在计算机视觉的基本应用如视频监控、机器人、人机交互和多媒体网络检索中是一个非常重要的课题。不论输入源怎样,在生理方面,如人脸识别、指纹和虹膜,人类行为识别的重要挑战之一是明确或者含蓄地表示并建模数据的时间演化;另一个挑战是在低分辨率、远距离和无用户合作的情况下获取人的身份。本领域所做的研究不断增加,但其中大部分研究仅仅涉及动作识别,而无法确定是何人所做动作。现有的大部分论文通过人脚步或身高,或行为特征对行人的身份进行识别,而后者仅仅基于人行走的动作。如我们所知,几乎没有研究能同时识别不同的动作和身份。由于识别监控摄像机中的远距离人脸很困难,需要更多的时空计算复杂度。受这些挑战的激励,本文开发了一种能够同时识别人的动作和身份的技术,该技术的关键在于提取动作的时空特征。本文作者测试了一种二进制图像身份识别的巧妙方法,并开发了嵌入式水印技术的识别力,如二维离散小波变换(DWT),其在于训练数据的视频识别,没有任何复杂的计算,也无需任何额外的存储空间,唯一的后处理是通过反向添加提取水印。接下来,本文通过动态系统获取人物的空间时序和外观特征,达到不同动作的精确背景差。本文还设计了一个巧妙的方法,该法能在不受控制的网络环境如YouTube中学习动作,而且能采用不同的方法提取和学习特征,然后使用支持向量机进行分类。虽然本文方法的适用范围仍然很小,但是一个人能做出一个动作。包括皇家理工学院、Weizmann和本实验室数据集显示的,该结果的动作和身份识别的精度优于以前的工作,并有潜力作为下一代计算机视觉的学习特征。本文主要分两大部分。第一部分假定一人在同类背景的可控环境下做一个动作,以不同动作识别方法嵌入水印和二维小波转换,提出人的身份识别。每种方法为一章,以同样身份算法和不同的动作建模并提出。第二部分展示了一个了解和识别网络身份的高效而简洁的方法。环境是不可控的,为了识别人的身份,本文采用方向梯度直方图(HOG)测试视频中的人,然后使用贝叶斯分类器了解特征,从而识别身份的动作。本文各章的大致内容如下:第一种部分采用描述子——尺度不变特征转换提取处理视频序列的局部特征,通过在规模空间中识别稳定点的分级过滤器提取特征。第二种部分提出了深度学习,这些特征提取包括视频中特征追踪的离散傅里叶变换的深度信念网络(DBN)。第三和第四部分分别采用切比雪夫和Zernike矩提取特征,由于这两者的正交矩特性优于几何矩,该优越性表现在,对噪声的鲁棒性、平移不变性、旋转和缩放。最后部分提出从网络上识别身份的方法,应用这种方法能在视频上自动进行身份注释。本文设计了部分实验以验证所提方法的有效性,对这些方法作出分析也进一步证明其有效性。