论文部分内容阅读
视觉(图像序列)信息和听觉(音频)信息是构成视频的两种主要信息模态。随着计算机性能的重大突破和互联网应用的普及,视频数据量剧增。为了充分有效地利用和发挥这些分布广泛、内涵信息丰富的视频内容的作用,视频信息处理技术应运而生。视频信息处理是智能信息处理的重要组成部分,它分为基于视频数据的低层处理(对感兴趣目标的检测、跟踪和识别)和在此基础上的高层(语义层)的行为判别、理解等研究内容。视频数据中包含视觉(图像)和听觉(音频)两种模态的信息,基于视频数据内容的处理涉及对感兴趣目标的检测、识别、跟踪等关键技术。虽然已有众多研究人员开展了大量相关的研究工作,取得了较多的实验性成果,然而这些技术距离实用化还有待深入研究。本文面向视频监控,以信号处理、图像处理及模式分类等理论为基础,针对视频多模态信息处理中,关于听觉信息处理的音频流(语音流)检测和话者识别及视觉信息处理中的运动目标检测、跟踪等关键技术问题进行了研究。论文主要研究内容概括为四点:(1)提出了一种基于希尔伯特变换的经验模分解和高阶统计量的语音流检测算法。在提取语音流特征时小样本的端点飞翼效应问题一直是存在于信号的经验模分解中的。为解决这一问题,需要对端点进行延拓处理,经分析可知采用回归支持向量机是一种可行的解决方案。但在采用SVRM方法时,又带来了如何进行参数选取的问题。为此。本文给出了微粒群优化的参数选择方法。既解决了端点延拓问题,最终又实现了视频中的语音流的有效检测问题。实验结果表明,提出的算法无论在高斯噪声环境下,还是非高斯噪声环境下,对语音流的检测都很有效,说明该方法的抗噪声能力较强。(2)提出了一种分别以美尔倒谱系数和翻转美尔倒谱系数为特征的多分类器融合的话者识别算法。MFCC对语音信号低频段信息的表征能力十分强,但它又弱于表征语音的高频段信息。为了提取能较全面表征语音信息的特征,本文经分析后分别从语音信号中提取美尔倒谱系数和翻转美尔倒谱系数作为语音片段的两组不同的特征进行分类器设计,最终应用基于信息融合理论的方法,得出关于该语音段话者的双分类器的综合判定结果。实验结果表明,本文提出的基于MFCC与IMFCC特征的多分类器融合的话者识别算法,比仅仅依靠其中之一的单一特征的分类算法性能更优。(3)提出了一种基于颜色空间向量差法的运动目标检测算法。针对背景模型在实时更新时受环境噪声影响大的问题,本文提出了采用自适应K分布数混合高斯法进行背景建模,利用EM迭代算法对背景模型进行提取和更新,实验验证了方法的快速及有效性。针对基于灰度图像的目标检测方法中对色彩信息的损失问题,提出利用颜色空间向量差中长度和方向两个属性的统计特性,将运动目标与噪声进行分类,对于运动模板中的孤立噪声,借助数学形态学方法进行删除,并对不完整运动目标进行修补完善。实验结果表明所提出算法的运动目标检测结果比较理想。(4)提出了一种基于欧式距离判断的改进的粒子滤波跟踪算法。针对联合多目标概率密度算法在目标状态估计时计算量过大的问题,采用N个加权粒子的组合来近似联合多目标概率密度p(X, T|Z)的分布。提出了一种改进的粒子滤波算法,根据粒子对于不同目标之间的欧式距离的大小,对粒子进行独立划分或者关联划分,实现对同一视频中的多个运动目标的跟踪。在室内和室外两种不同的环境中,实验结果表明该算法可以有效地对多目标进行跟踪。上述四个创新点,按照其在文中给出的视频多模态信息处理框架中所示的处理顺序来加以研究。期望本文的研究成果,能为下一步的工作---在智能视频监控系统的实施中提供技术储备,达到对视频所反映的内容--感兴趣目标的行为进行自动分析与理解的最终目标。