论文部分内容阅读
由于数字信息与互联网的蓬勃发展,个人信息不断泄露,使得身份认证成为了日益被人们所重视的问题,而说话人识别作为其中一种身份认证方式,有着成本低、便于移植、无需接触、方便高效等优点,在刑事侦查、电子商务等领域都有巨大的发展潜力。 虽然目前在实验室安静的背景下,说话人识别能够取得非常好的成果,可实际还存在着许多比如噪声干扰等问题,本文从整个识别系统整体着手,先概述系统由哪些环节构成以及这些环节的重要性,接着详细描述这几个环节的原理以及运算过程,本文具体研究内容以及创新如下: (1)因为语音传输到识别系统的过程中或多或少总会受到噪声的干扰,使得语音的可懂度有所下降,因此本文研究在不同噪声环境下通过基于压缩感知的算法来给语音进行去噪处理。 (2)由于输入的语音信号不只是包含有效的语音段,并且在语音段之外还有噪声段或者无声段,这必然会给系统带来识别的误差,而且运算上也会加大负担。为此本文提出一种TEO与频域上的分形维数相结合的互补性两级判决的端点检测方法,能够在低信噪比下准确切分出有效语音的起止端点。 (3)本文研究能够表征说话人声音的特征参数MFCC以及TEO能量,通过计算出静态特征以及动态特征并将它们结合在一起,采用增减分量法来抽取对系统贡献度高的特征分量进行重新组合并分别加权,从而得到能够囊括说话人声音特征的组合参数。 (4)分析GMM-UBM模型原理以及其参数估计,并建立GMM-UBM说话人模型,利用该模型来训练以及识别。本文首先把所有人的语音通过EM方法训练成一个UBM,接着通过MAP方法从这个UBM中加入某个人的语音来一起运算,并得到代表这个人的GMM模型,同理得到每个人的GMM模型之后,识别阶段就能够把待识别特征与之前训练好的UBM以及GMM共同运算得到识别结果。在最后通过实验证明本文在各环节的研究成果。