视频多模态信息处理的关键技术研究

被引量 : 0次 | 上传用户：lulufii

【摘要】

：

视觉（图像序列）信息和听觉（音频）信息是构成视频的两种主要信息模态。随着计算机性能的重大突破和互联网应用的普及，视频数据量剧增。为了充分有效地利用和发挥这些分布广泛、内涵

【作者】

：

钱真

【发表日期】

：

2012年期

【关键词】

：

高阶统计量美尔倒谱系数翻转美尔倒谱系数空间向量差粒子滤波算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

视觉（图像序列）信息和听觉（音频）信息是构成视频的两种主要信息模态。随着计算机性能的重大突破和互联网应用的普及，视频数据量剧增。为了充分有效地利用和发挥这些分布广泛、内涵信息丰富的视频内容的作用，视频信息处理技术应运而生。视频信息处理是智能信息处理的重要组成部分，它分为基于视频数据的低层处理（对感兴趣目标的检测、跟踪和识别）和在此基础上的高层（语义层）的行为判别、理解等研究内容。视频数据中包含视觉（图像）和听觉（音频）两种模态的信息，基于视频数据内容的处理涉及对感兴趣目标的检测、识别、跟踪等关键技术。虽然已有众多研究人员开展了大量相关的研究工作，取得了较多的实验性成果，然而这些技术距离实用化还有待深入研究。本文面向视频监控，以信号处理、图像处理及模式分类等理论为基础，针对视频多模态信息处理中，关于听觉信息处理的音频流（语音流）检测和话者识别及视觉信息处理中的运动目标检测、跟踪等关键技术问题进行了研究。论文主要研究内容概括为四点：（1）提出了一种基于希尔伯特变换的经验模分解和高阶统计量的语音流检测算法。在提取语音流特征时小样本的端点飞翼效应问题一直是存在于信号的经验模分解中的。为解决这一问题，需要对端点进行延拓处理，经分析可知采用回归支持向量机是一种可行的解决方案。但在采用SVRM方法时，又带来了如何进行参数选取的问题。为此。本文给出了微粒群优化的参数选择方法。既解决了端点延拓问题，最终又实现了视频中的语音流的有效检测问题。实验结果表明，提出的算法无论在高斯噪声环境下，还是非高斯噪声环境下，对语音流的检测都很有效，说明该方法的抗噪声能力较强。（2）提出了一种分别以美尔倒谱系数和翻转美尔倒谱系数为特征的多分类器融合的话者识别算法。MFCC对语音信号低频段信息的表征能力十分强，但它又弱于表征语音的高频段信息。为了提取能较全面表征语音信息的特征，本文经分析后分别从语音信号中提取美尔倒谱系数和翻转美尔倒谱系数作为语音片段的两组不同的特征进行分类器设计，最终应用基于信息融合理论的方法，得出关于该语音段话者的双分类器的综合判定结果。实验结果表明，本文提出的基于MFCC与IMFCC特征的多分类器融合的话者识别算法，比仅仅依靠其中之一的单一特征的分类算法性能更优。（3）提出了一种基于颜色空间向量差法的运动目标检测算法。针对背景模型在实时更新时受环境噪声影响大的问题，本文提出了采用自适应K分布数混合高斯法进行背景建模，利用EM迭代算法对背景模型进行提取和更新，实验验证了方法的快速及有效性。针对基于灰度图像的目标检测方法中对色彩信息的损失问题，提出利用颜色空间向量差中长度和方向两个属性的统计特性，将运动目标与噪声进行分类，对于运动模板中的孤立噪声，借助数学形态学方法进行删除，并对不完整运动目标进行修补完善。实验结果表明所提出算法的运动目标检测结果比较理想。（4）提出了一种基于欧式距离判断的改进的粒子滤波跟踪算法。针对联合多目标概率密度算法在目标状态估计时计算量过大的问题，采用N个加权粒子的组合来近似联合多目标概率密度p(X, T|Z)的分布。提出了一种改进的粒子滤波算法，根据粒子对于不同目标之间的欧式距离的大小，对粒子进行独立划分或者关联划分，实现对同一视频中的多个运动目标的跟踪。在室内和室外两种不同的环境中，实验结果表明该算法可以有效地对多目标进行跟踪。上述四个创新点，按照其在文中给出的视频多模态信息处理框架中所示的处理顺序来加以研究。期望本文的研究成果，能为下一步的工作---在智能视频监控系统的实施中提供技术储备，达到对视频所反映的内容--感兴趣目标的行为进行自动分析与理解的最终目标。

其他文献

基于抗震和经济性能的小高层住宅的优化设计研究

随着我国经济的快速发展，城镇化水平进一步提高，越来越多的人口涌入城市。城市短缺的土地资源和迅速增加的人口数量之间的矛盾显得更加突出。高层和小高层住宅的出现很好的解决

学位

小高层住宅抗侧刚度初始墙率抗震性能经济性能

采空区下薄煤层综采工作面护巷煤柱合理宽度研究

为研究近距离浅埋煤层群下部薄煤层回采过程中护巷煤柱的宽度,以凉水井矿431盘区工作面护巷煤柱为研究对象,采用理论分析和数值模拟的方法,研究了不同煤柱宽度对煤柱稳定性的

期刊

护巷煤柱薄煤层浅埋煤层近距离煤层

楔横轧阶梯轴成形过程的有限元仿真与分析

楔横轧经过几十年的发展，其实践经验技术已达到很高水平。但由于楔横轧成形机理十分复杂，加之影响因素众多，理论上某些方面还有待于进一步的探讨和研究。而有限元模拟技术有助于

学位

楔横轧有限元仿真应变ANSYS/LS-DYNA

中日民族心理和解的主要障碍及其克服路径——写在中日邦交正常化40周年之际

中日关系仍系既脆弱又棘手的一对中外双边关系。这是因为影响两国民族心理和解的主要障碍迄今尚未克服,诸如部分日本政要尚未像德国政要那样正视侵略历史、日本国民尚未全部

期刊

中日关系日本右翼势力历史问题民族和解

如何利用CAD中多线绘制窗、墙线

在建筑施工图中,墙线和窗线就是主要的图形之一,而利用多线命令来绘制墙线或窗线,会适当提高绘图效率。本文结合门窗实例,通过设置新的多线样式,选择对应的对正方式和比例,并

期刊

计算机建筑多线墙线

基于CAD的加工中心在线检测系统研究与开发

目前机械加工过程中，工件的定位与检测大部分还要依靠人工来完成。人工测试不但工作量大，带有一定的人为因素，而且质量数据也不能采集。开发加工中心在线检测系统，既是企业生产实

学位

在线检测ObjectARX二次开发检测路径规划数据提取自动编程

素材积累:教学经验总结提炼

广大一线教师都有较多的教学实践经验,但并非所有的教师都已经把经验很好地归纳总结出来,并进一步理论提升。经与老师们的交流中了解到,多数教师的教学经验都是呈零碎或片状

期刊

教学经验总结归纳整理立定跳远体育教学实践经验积累体育课堂文件夹分类记录一线教师

跨文化背景下的当代中国空间消费

生活在五光十色的现代都市，消费是每个人都须臾不离的一种现代生活实践，可以说我们就生活在一个被法国社会学家鲍德里亚(1989)称之为消费社会的环境之中。并且，这样的生活是以鲍

学位

文化研究咖啡文化空间消费符号学身份认同全球本土化

温胆汤加减改善恶性肿瘤患者症状举隅

期刊

温胆汤肺癌食管癌胃癌

3级高血压病中医证候与靶器官损伤特点及相关因素研究

目的：目前，我国高血压病患病人数已上升至2亿，每年还有相当数量的新发病例，提示在正常人群中预防高血压病的发生是当前的迫切任务。但是，由于其影响因素多，辨证复杂，不同级（期）患者证

学位

3级高血压病证候致病因素靶器官损伤病位节气

视频多模态信息处理的关键技术研究

其他学术论文