论文部分内容阅读
视频序列中的行为识别由于应用广泛,是当前计算机视觉研究领域的一个热点。行为识别研究在受控场景下已经取得很大进展,但在复杂场景下,还存在着诸多挑战,如何在嘈杂的真实场景下,寻求有效的行为特征表示,以及高效的、鲁棒的、能满足实时处理要求的机器识别算法,将是较长时期内所追求的目标。为了提升行为识别的性能,我们做了以下几个方面的工作:1)概率隐含语义分析模型的行为识别研究概率隐含语义分析模型通过挖掘隐含于众多特征点间的共现模式,提取中间层的语义描述来表示视频中的行为,增强了特征的判别性。为了进一步提升模型的识别性能,着重研究了不同编码方法联合归一化方法对于分类性能的影响,采用稀疏时空特征时局域软分配编码结合指数归一化方法大幅提升了识别性能;还考察了主成分分析预处理原始特征对于性能的影响,在显著降低特征维度进而降低计算量的同时,当特征包含较多噪声成分的情况下性能甚至会有所提升。在KTH和UT-interaction数据库上的实验表明,编码和归一化方法的适当组合可以显著提高模型的性能。在UT-interaction数据库的两个子集上识别精度分别达到了当前最好的结果96.44%、95%,其中在数据集1上采用稀疏的时空兴趣点特征,得到了94.24%的识别精度。2)过完备稀疏编码的行为相似识别方法行为相似性识别着重研究动作之间是否相似,因何相似,这有助于更深入的理解视频中的行为,也为跨数据库的识别提供了新的思路。提出了过完备稀疏编码的行为相似识别方法,首先通过高斯混合模型对训练集中抽样得到的特征子集进行训练,然后针对每一个混合模型分量,学习得到子码本,综合各分量的码本即得到超完备的码本集;对特征编码时,先对特征利用高斯混合模型进行分类,为了保留更多的特征信息,采用软分配的方法,保留概率最大的三个分量,并对三个概率分量归一化;对归属于混合模型的各个分量的特征,采用相对应的码本进行稀疏编码;最后采用支持向量机进行分类识别。该方法通过高斯混合模型来学习特征空间的子流形结构,在每一个分量上,用相对较小规模的字典来编码特征,既降低了对于运算能力的要求,又提升了对于行为的描述能力,在ASLAN行为相似数据库上的实验验证了所提方法的有效性。3)基于费舍尔矢量和局域聚合描述符矢量编码的行为识别方法针对局域聚合描述符矢量编码采用硬量化方法带来的信息损失问题以及费舍尔矢量编码只统计了特征一阶、二阶统计量,提出了两种改进方法。首先探讨了主成分分析预处理特征对编码性能的影响,在此基础上,提出了两种改进方法,一是采用两种软分配方法替代矢量量化的硬编码方法,提出了软分配版本的局域聚合描述符矢量方法,提升了局域聚合描述符矢量编码的性能;二是由于特征分布的高阶矩统计量提供了有关特征的更多信息,将特征的高阶矩统计量融入到费舍尔矢量的编码中,提出了联合高阶矩的特征编码方法。在KTH、UT、UCF sports及UCF101数据库上的实验验证了所提方法的有效性。4)基于时空信息的超矢量编码行为识别方法特征间的时空关系包含了丰富的信息,这对于提升视频中的行为识别性能是很重要的。在上一章研究的基础上,将特征间的时空信息统计融入到超矢量编码中,提出了基于时空信息的超矢量编码行为识别方法。首先,提取特征的时空信息点,根据时空信息点的位置坐标进行聚类,将特征点分割为时空体;在每一个时空体中,采用费舍尔矢量、各类高阶统计矩来统计局部特征点集的分布特性;最后联合全局的费舍尔矢量编码组成视频的超矢量表示。所提方法联合了特征点在全局和局域的分布特性,将特征间的时空关系纳入到编码中,在KTH、UCF sports以及UCF101数据库上的实验取得了较好的识别率,其中在UCF101数据库上取得了比基于深度学习方法更高的识别精度。