论文部分内容阅读
在如今这个计算机及网络技术迅速发展的时代,多媒体信息已经渗透到社会日常生产生活的方方面面,并且呈现出数据海量增长、信息交互频繁、云端服务日益完善等的发展特点。在大数据时代的背景下,如何在海量的视频中快速搜索出用户感兴趣的视频或者快速地将视频分门别类以便于后续的处理是一个十分紧迫的任务。作为计算机视频领域的一个重要组成部分,近年来人体行为识别已经对智能安防、视频检索和人机交互等实际问题的研究做出了很大的贡献。基于局部时空特征的人体行为识别方法是目前的主流趋势,该方法聚焦和整合人体行为视频的视觉底层局部特征,建立底层局部特征统计分布和高层语义之间的关联,已经成为目前人体行为视频分类的标准范式。首先需要从人体行为视频中提取特征,然后结合特征编码方法使用直方图向量描述视频,最后选择合适的分类器进行行为识别。针对存在于底层特征和高层语义之间的鸿沟,结合目前人体行为识别技术的发展,本文主要做了以下几个方面的工作:1.系统性总结现有研究工作。查阅大量相关文献,对基于局部时空特征的方法进行概述,其中重点介绍了常用的时空特征描述子、特征编码方法和词袋框架,为本文后续工作奠定基础。2.提出了融合局部思想和协作表达的人体行为识别算法。为了能够充分正确地利用视频数据从而保证直方图表示向量对行为的高描述性,提出了一种新颖、有效的人体行为识别算法。所提算法融合了协作表达方法和时空金字塔表示,并且采用引入局部限制的方式保持了局部特征与其基向量之间的相似性。协作表达的引入使得算法可以得到一个闭式,避免了在稀疏表示分类算法中因迭代造成的高时间复杂度问题,同时为了增强直方图表示向量的行为鉴别能力,算法巧妙地借助时空金字塔描述视频中特征的结构化分布。3.提出了基于视频时空特征哈希编码表示的人体行为识别算法。着重介绍了学习自编码哈希函数以及将局部特征点表征为二进制哈希编码的过程。该方法改变了传统词袋框架的编码方式,运用二进制哈希编码描述局部特征,较好地保留了特征的局部相似性信息,并且结合哈希编码做了一次K-Means聚类,获得了具有强大鉴别能力的视觉词典,最后通过时空金字塔模型,将视频表示为时空金字塔直方图。实验结果表明,与传统的基于稀疏编码及其改进算法的人体行为识别方法相比,本章算法具有更短的词典构造时间、更快的编码速度以及较高的人体行为识别准确率。4.最后,对全文进行总结,并对进一步的研究提出一些展望。