论文部分内容阅读
随着现代社会的迅速发展,人们日常生活中充斥着大量的视频数据。而以视频中人体行为的识别不但是计算机视觉领域中一个非常重要的课题,它还在视频监控、人机交互、医疗辅助等方面有着非常广泛的应用前景。本文即以人体行为识别作为研究内容。虽然目前人体行为识别得到了很大的发展,但是受到视频环境、视频角度变化、视频光线变化以及存在遮挡问题的影响,使得计算机还不能很好地对视频中的人体行为进行识别。对于人体行为识别的研究过程按顺序主要包括三个部分:视频样本中人体行为的表示、人体行为的学习模型以及对于行为的分类。人体行为的表示是整个过程的基础,它直接影响最后的识别效果;由于分类性能受到遮挡等问题的影响,所以如何学到一个具有判别性的模型是关键部分。目前根据学习模型使用的样本不同,可以把模型分为三类:有监督学习方法、无监督学习方法和半监督学习方法。虽然有监督方法相对无监督方法已经取得较好的识别效果,但是考虑到实际生活中充斥着大量的无标签样本,而有标签样本的获取代价是巨大的,所以本文主要研究如何有效的利用半监督方法进行特征编码。主要成果如下:1.提出一种基于相似性权值的半监督字典学习方法用于人体行为识别。该方法通过构造视频样本与编码字典的相似性权值,以此来引入无标签样本的信息,从而把半监督学习方法与行为识别进行结合,来共同学习一个具有判别性的编码字典。2.提出基于局部l2,1范数的组稀疏编码用于人体行为识别。传统的l2,1范数是一种编码矩阵行稀疏的概念,它的作用是使得一个字典原子要么参与该视频所有局部特征的编码,要么不参与该视频任何局部特征的编码。而实际上一个视频中的局部特征也有一定的局部相似性。我们提出一个局部l2,1范数,该范数不但考虑了视频的整体稀疏性,而且考虑了视频中的局部信息。该方法使用组稀疏表示模型,使用局部l2,1范数,对视频进行特征编码。3.提出一种半监督字典学习方法用于人体行为识别。有监督字典学习和无监督字典学习的区别在于是否用到有标签的样本。而半监督字典学习不但用有标签样本,而且要使用无标签样本。本文使用大量的无标签样本来进行字典学习,通过有标签样本和字典的相似性约束来增强字典的判别性,从而可以得到相对有监督和无监督学习方法更好地效果。