智能环境下基于音频和视频特征融合的多说话人识别

来源 :兰州理工大学 | 被引量 : 1次 | 上传用户：dsfgsdfwe

【摘要】

：

人类大脑能够在复杂环境下利用其自身特有的融合机能帮助人们准确识别周边事物。在信息产业蓬勃发展的今天，说话人识别技术在模式识别领域不断被提及，因其在某些条件下能够很好

【作者】

：

余丽珍

【机构】

：

兰州理工大学

【出处】

：

兰州理工大学

【发表日期】

：

2012年01期

【关键词】

：

多说话人识别信息融合音频特征视频特征运动强度特征聚类初始化高斯混合模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人类大脑能够在复杂环境下利用其自身特有的融合机能帮助人们准确识别周边事物。在信息产业蓬勃发展的今天，说话人识别技术在模式识别领域不断被提及，因其在某些条件下能够很好地模仿人类机能，甚至赶超人类。而智能会议环境中的说话人识别研究是目前人机交互的又一重点课题，如何借鉴人脑的融合机能，利用多模态融合技术，将对应说话人的音频信息和视频信息进行进行有效融合，从而达到鲁棒准确的识别效果，已成为智能信息处理的一个热点研究。在充分探讨和总结音频说话人识别、视频特征提取、多模态信息融合及多说话人识别关键技术基本理论的基础上，并取AMI语料库中的视听会议材料进行仿真实验，提出了音视频特征融合的多说话人识别算法，该研究的主要内容包括三个部分，具体如下：首先，提出改进的说话人聚类初始化和GMM的多说话人识别算法。它针对多说话人聚类线性初始化方法所得初始话者类纯度不高的问题，提出了一种改进的聚类初始化方法，该方法引入BIC对由线性初始化产生的初始类进行检测分割，有效提升了说话人初始类纯度；最后将其应用到GMM多说话人识别系统。其次，引入视频信号的运动强度特征，提出了基于MFCC和运动强度聚类初始化的多说话人识别算法。它通过运用每一时间帧视频信号的运动强度特征对聚类初始化阶段的初始话者类进行选择，充分利用了音频视频信号的相关性，进一步提高性说话人初始类纯度，此时并未涉及真正意义上音视频多模态融合，为下阶段研究奠定基础。最后，提出了音视频特征融合的多说话人识别算法。它结合说话人语音产生和视频动作之间的时空相关性及互补性，利用麦克风中提取的音频特征和视频信号中提取的运动强度特征，分别对其建立音频流模型和视频流模型，并在说话人聚类分割阶段采用公式化方法将两者进行模型级融合得到对应说话人训练模型，最后应用到GMM多说话人识别系统。仿真结果表明，上述音视频特征融合识别算法是可行的。多说话人识别中，聚类分割是关键，而初始类的选择极大地影响识别的整体正确率，实验证明对说话人聚类初始化的研究中所提的两种新方法有效提高了说话人初始类纯度，在一定程度上有效地降低系统错误识别率。同时，音视频模型级特征融合的多说话人识别算法引入视频特征并应用于音频模型中较之常用的单音频说话人识别有很大改进且更具鲁棒性，尤其在动态会议、语音重叠等复杂情况下其识别效果更为明显，进一步证明了音视频特征融合的多说话人识别的有效性。

其他文献

计及电压质量的配电网无功优化研究

随着当代技术的不断革新以及经济的高速增长,人们的生活水平得到了极大的提高,随之而来的是社会各行各业对电能的需求量日益增加,同时对供电质量和安全性的要求也在不断提高。电压作为衡量电能质量的重要指标之一,直接影响着电力系统安全稳定的运行,而且随着用电负荷的飞速增长,导致很多地区的电压不满足国家标准值,甚至会出现用电设备无法正常工作的情况。影响电压质量的主要原因是系统提供的无功功率不足或无功功率分布不合

学位

配电网无功优化电压质量聚类算法粒子群优化算法

基于TIDM6437的行人跟踪算法研究

行人跟踪是智能视频分析领域的一个重要研究方向。在行人跟踪算法基础上可以直接实现人流统计、越界检测等智能视频监控方面的应用,而行人跟踪作为一些更高层次的智能视频分

学位

行人跟踪DM6437 DSP背景差分水岭ViBe

基于直方图统计模型的自适应多阈值图像分割算法的研究

一直以来,图像分割都是计算机视觉领域的一个关键问题,图像分割的效果将直接影响到图像的下一步分析和处理。同时,它也是图像处理领域的一个经典难题。在图像分割算法中,直方

学位

图像分割直方图阈值法偏度Gamma分布ISODATA算法极大似然估计对数正态分布矩估计分裂合并法

一体式传感器实验仪的研究与设计

传感器实验仪作为掌握传感器相关知识和获得传感器性能的主要工具之一,可以完成对传感器性能的验证性和测试性实验,在工科院校、相关研究单位以及生产部门具有广泛的应用。目

学位

传感器实验仪一体式转换与传输模块操控平台

基于典型工况的水泥联合粉磨预测控制

水泥工业作为基础性原材料的支柱产业,在国家经济建设中具有举足轻重的地位。水泥联合粉磨是水泥生产关键环节之一,决定了水泥的质量与产量。由于水泥联合粉磨系统的高耗低效

学位

水泥联合粉磨稳流仓工况模板最小二乘支持向量机(LS_SVM)预测控制

基于蚁群算法的无线传感器网络功率控制研究

本文从功率控制角度出发，考虑有上位机控制和无上位机控制，采用改造后的串行蚁群算法和并行蚁群算法对两种情况进行能耗优化，并分析在网络节点非均匀分布情况下算法的优化结果。

学位

无线通信网传感器网络能耗分布网络架构

基于图像检索的定位算法研究与实现

基于图像的定位算法作为一门融合计算机视觉、机器学习、多视图几何、图像检索等众多科研领域的交叉性学科技术,在机器人导航定位、现实增强、三维重建、地标识别等领域有着

学位

图像检索定位算法NetVLADVLAD-CNN

李长春等出席《百年圆梦——迎奥运文艺晚会》

7月29日晚,北京奥运会倒计时10天之际,《百年圆梦——迎奥运文艺晚会》在中央电视台隆重举行。中共中央政治局常委李长春,中共中央政治局委员、书记处书记、中宣部部长刘云

期刊

文艺晚会李长日晚中共中央中国体育事业民族性国际社会自山

学好《讲话》精神创新探索实践

“引领舆论先声,回应时代命题”。一个学习宣传贯彻胡锦涛总书记6月20日视察人民日报社重要讲话精神的热潮正在新闻宣传领域展开。胡锦涛总书记的重要讲话深刻阐述了新闻宣

期刊

《讲话》精神人民日报社时代命题胡锦涛宣传工作宣传领域五个形势和任务重大主题报道典论

低航速减摇鳍的升力特性分析及控制方法研究

船舶在海里航行时，无论处于哪种航速下，当受到海风、海浪和海流等干扰的作用，都不可避免的会产生摇荡运动，其中以船舶的横摇运动最为显著。减摇鳍是目前最有效且应用最广泛的主动

学位

低航速减摇鳍升力横摇模糊控制

智能环境下基于音频和视频特征融合的多说话人识别

与本文相关的学术论文