论文部分内容阅读
人体动作行为识别是计算机视觉研究中的重要领域,在计算机视觉中是一个极具有吸引力及挑战性的问题。人体运动的视觉分析是一个新兴前沿的研究领域,涉及模式识别,图像处理,计算机视觉,人工智能等多门学科。它可以广泛应用于许多领域,如:运动捕捉,人机交互,监控和安全,环境控制和监测,体育及娱乐分析等,因此,人体动作的视觉分析具有极大的商业价值与现实意义。视频中的人体动作行为识别是近年来计算机视觉研究的热点也是难点,但仍未成熟仍处于初级阶段。目前大多数研究仍是简单的姿态、手势、表情、步态等,并且背景也比较单一,而所提出的方法要么过于简单,要么运算速度跟不上难以应用于实时系统。本文正是针对上述问题,对一些较为复杂的行为如:偷盗、抢劫、打架等及更为复杂背景的来自于网络与真实场景中的视频进行创新性和探索性研究。除了对研究内容的扩展,本文在总结分析国外近年一些最先进方法基础上,就其优缺点,在视频内容理解与描述上提出一种新的特征——PM-PEMO时空金字塔特征。这种特征不仅包含局部信息也包含全局信息,能够更好的描述行为,具有较强的抗干扰与抗噪声能力,鲁棒性强。此后,对所构造的PM-PEMO时空金字塔特征通过一些先进的机器学习方法:在线字典学习、稀疏主成分分析、局部约束线性编码、距离度量学习进行机器学习得到视频特征代表。之后,用多任务大边界最近邻(MT-lmnn)与线性支持向量机(LSVM)联合,以打分机制对视频特征代表进行分类,明显提高了识别效果。本文方法先用MATLAB进行仿真实验,然后再用C,C++,MFC,OPENCV做成应用软件。通过智能视觉信息处理与通信实验室(IVIPC)视频数据库、网络视频数据库、Weizmann视频数据库及KTH视频数据库进行测试,并与近年一些最先进的方法进行比较。实验结果表明本文方法实时性较好并且具有较高的准确率。