论文部分内容阅读
在视频身姿识别也即行为识别领域,局部时空(LST)特征提取算法被广泛使用,LST特征提取算法通常用来提取视频中的LST特征点以表示视频中目标人物的行为轨迹。此算法选取视频帧中变化显著的像素点作为LST特征点,LST特征点一般落在目标人物的运动轨迹上,因此LST特征点能较好地表现目标人物的运动轨迹,非常适合用于身姿识别。LST特征提取算法中,特征点的选取对最终的分类准确率起着重要的作用。而随着深度传感器的出现,仅用于提取RGB视频特征的传统LST特征提取算法需要调整才能提取深度信息中的LST特征。深度传感器与RGB传感器获取数据的原理不同,产生噪声的不同,使得两者需要使用不同的噪声处理方法;如何将特征点都聚集在人物的运动轨迹上,避免无效特征点的选取;以及分类准确率尚需进一步的提高。这些都是需要解决的问题。鉴于传统LST特征提取算法存在的这些问题,本文选择将LST特征提取算法中的CoDe4D(Color-Depth Local Spatio-Temporal Features)特征提取算法做出改进,CoDe4D特征提取算法将颜色特征和深度特征融合,但未将颜色信息和深度信息分开降噪,且提取的LST特征点存在无效特征点。改进后的CoDe4D特征提取算法针对颜色信息和深度信息使用不同的降噪方法。为了尽量避免无效特征点的提取,改进后的CoDe4D算法对滤波器的高斯核参数做出修改。在识别分类时采用以广义直方图交叉核为核函数的支持向量机(SVM)做分类器,进一步提高行为识别的分类准确率。并且,将改进的CoDe4D算法得到的特征向量作为输入数据加入改进的MiCT(Mixed 3D/2D Convolutional Tube)网络中。最后将改进的CoDe4D算法和改进的MiCT网络应用于数据集MSR Daily Activity 3D。本文的主要工作主要可以概括为以下两个方面:(1)改进的CoDe4D特征提取算法。在目标人体的边缘地带,深度传感器获取的深度值可能会在背景的深度值和人体边缘的深度值之间来回跳动而产生翻转噪声,或者由于场景中存在的特殊材料以及目标人物快速移动导致翻转噪声的产生,本文使用一个校正函数来抑制这种翻转噪声。对于RGB传感器,使用直方图均衡化来平滑噪声,使视频中的灰度数据均匀分布。修改滤波器的部分参数降低无效特征点的提取数量,然后使用以广义直方图交叉核为核函数的SVM作为分类器提高视频中目标人物行为的分类准确率。为了验证改进后的CoDe4D特征提取方法的有效性,本文将改进后的CoDe4D提取到的特征点图与其他几种特征提取算法提取到的特征点图作比较,然后使用DCSF(Depth Cuboid Similarity Feature)特征描述方法以及词袋法构建特征向量,用SVM分类识别得到分类准确率,再与其他几个特征提取算法比较分类准确率。实验基于MSR Daily Activity 3D数据集,实验结果表明:改进后的CoDe4D特征提取算法的特征点图无效特征点更少,并且运动轨迹更明显,使用DCSF特征描述和词袋法构建特征向量,SVM识别分类之后,分类准确率相比其他LST特征提取算法更高。(2)改进的3D/2D联合卷积混合模块(MiCT)。在原有MiCT网络框架的基础上,调整框架结构使得MiCT网络框架可以同时分析RGB信息和深度信息。MiCT网络框架分为3D/2D串联混合模块和3D/2D并联混合模块。3D/2D串联混合模块用于提取空域信息,3D/2D并联混合模块用于共享空域信息,可以避免梯度消失现象,加快卷积网络计算速度。将MiCT网络用于深度信息和RGB信息的共同处理,然后将改进的CoDe4D算法得到的特征向量作为辅助特征加入MiCT网络中,为了验证改进后的MiCT网络用于深度和RGB的有效性,这里将改进后的MiCT网络的分类准确率与其他LST分类算法作分类准确率比较。实验基于MSR Daily Activity 3D数据集,实验结果表明:分别使用1到3个MiCT模块构建MiCT网络,3个MiCT模块构建的MiCT网络分类准确率最高,且MiCT网络的准确率高于改进的CoDe4D算法。