混响和噪声环境下说话人识别的研究

来源 :同济大学声学研究所 同济大学 | 被引量 : 0次 | 上传用户:xuzuhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是语音识别的一种特殊形式,就是从说话人的一段语音中提取 出说话人的个性特征,通过对这些个性特征的分析和识别,从而达到对说话人 进行辨认或确认的目的。在说话人识别的研究过程中,人们逐渐发现鲁棒性是 说话人识别中的重要问题。影响说话人识别系统鲁棒性的主要因素有训练和识 别时声学环境的差异、环境噪声。 当训练和识别时声学环境不相匹配时,本文通过混响室内生成的声脉冲进 行数学变换的方式来构造不同混响时间的虚拟声脉冲。再通过虚拟声脉冲与声 源“干”信号进行卷积运算,就可以得到不同混响时间的语音信号。这样可以 选择一个与训练环境相匹配的识别的环境,从而使训练环境和识别环境相匹配, 提高系统的识别性能。 在噪声环境下,本文利用基于听觉掩蔽效应的语音增强技术,对含噪语音 信号进行降噪处理,这是对减谱法的一个改进,这样不仅能降低白噪声,还可 以降低减谱法中残留的音乐噪声,使音乐噪声给听觉上带来的不适得以降低。 经过降噪处理的语音信号送入说话人识别系统,使系统的识别性能得到提高。 高斯混合模型(GMM)方法是目前在文本无关的说话人识别中广泛应用的 方法,实验中分别提取LPCC参数和MFCC参数利用VC++建立一个基于GMM 的说话人识别系统,并且分析了在特征参数LPCC、MFCC下系统的识别性能。 由实验结果得出:MFCC的识别性能优于LPCC;对噪声环境下、训练和识别时 声学环境不相匹配的情况下,采用不同的声学预处理方法,提高了系统的鲁棒 性。 关键词:说话人识别,GMM,特征提取,掩蔽阈值,语音增强,鲁棒性
其他文献
高强度气体放电灯(HighIntensityDischargeLamp,简称HID灯)以其高光通量、高光效(100~1201m/W)、长寿命和放电管小而显示出很强的生命力。在应用过程中遇到的声共振问题已成为H
量子声子涨落和电子关联效应对于准一维体系的性质往往起着决定性作用,本文着重讨论在同时考虑电子一声子相互作用和电子一电子相互作用情况下,我们研究了单电子谱函数、金属一
在量子力学研究领域中,人们发现了许多的非经典态,压缩态是其中的一类非经典态. 由不确定性关系,处于压缩态的量子涨落小于相干态的量子涨落. 人们期望利用这一性质去减少量
碳纳米管作为一种准一维的管状结构材料,具有较大的C-C键能,较高的长径比和大的比表面积,这些赋予了它优异的机械强度,良好的导热性、导电性,稳定的化学性质以及不错的场发射
等离子体是由带正电的离子、带负电的电子以及其他中性粒子混合组成的一种气团状物质。在自然界中存在着许多天然的等离子体,例如闪电就是将空气击穿成为等离子体而形成的。太