论文部分内容阅读
语音是实现人们之间沟通交流的最直接与方便的手段。近年来实现人与计算机之间高效的语音交流,也成为人们梦寐以求的梦想,语音识别是其中的关键技术。语音识别是指计算机对人类语音进行正确响应的技术。广义的语音识别技术包括语音识别、说话人识别、语种识别等。说话人识别,是一项根据语音中反映说话人生理和行为特征的语音参数来识别说话人身份的技术,其核心是通过预先得到的说话人的声音样本来提取其语音特征,然后保存在数据库中,在应用时将目标语音和数据库中的特征进行匹配来确定说话人身份。从本质上讲,说话人识别可以大体上分为特征提取和识别模型两部分内容,传统的说话人识别主要采用梅尔倒谱系数进行特征提取,然而这种方法在噪声环境中的鲁棒性还有待于提高。缺少简单可靠的语音特征参数成为制约说话人识别技术发展的一道重要障碍。盲源分离是在对彼此独立的源信号的混合过程及各个源信号本身均未知的情况下,根据信号的统计特性从几个混合观测信号中恢复出这些未知的源信号,实现混叠信号的盲分离,从而提取出各个源信号。独立分量分析是在研究盲源分离过程中出现的一种全新的数据分析和信号处理方法,自其出现便成为信号处理、数值分析、统计及神经网络等领域中的热点研究问题,并在语音处理、生物医学信号处理、模式识别、特征提取、数据压缩、图像处理和电子通讯等方面获得了非常广泛的应用。近来,独立分量分析被应用于对数美尔滤波器能量系数,得到与梅尔倒谱系数相似的的特点和性能更好的语音特征,对说话人识别技术有重要的研究意义。本论文研究了独立分量分析的基本理论和稀疏分量分析方法,将独立分量分析方法应用到说话人识别中的特征提取过程。论文的主要工作有如下几个方面:1.介绍了传统的美尔倒谱系数特征中采用的基于帧的语音特征提取系统,在线性变换阶段用基于独立分量分析变换代替其中的离散余弦变换,获得基于独立分量分析的特征。2.将由无噪语音信号训练生成的独立特征,应用到无噪和高斯噪声环境下的特征提取过程中。通过基于峭度的有效性分析,从理论的角度证明基于独立分量分析的特征在无噪和高斯噪声环境下对特征提取过程中的有效性;实验仿真中,将这种基于无噪信号的独立分量特征和美尔倒谱系数特征应用于无噪和高斯噪声环境的说话人识别任务,结果证明,前者具有更好的识别性能。3.分析了基于独立分量分析的特征在非高斯噪声环境下对说话人识别任务的不足,提出一种由带噪语音信号训练生成独立分量分析特征的信号表征模型;实验仿真中,将其应用于非高斯环境下的说话人识别任务,结果证明基于带噪语音的独立分量分析特征识别性能明显优于美尔倒谱系数特征和基于无噪语音的独立分量分析特征。应该指出的是,本文涉及的语音特征对环境噪声的鲁棒性仍待增强,论文最后对今后的工作进行了展望。