论文部分内容阅读
高噪声背景下输入计算机的语音,同时受到加性噪声和通道畸变的干扰.该文对平稳加性噪声和通道畸变的联合补偿方法进行了研究,提出了RASTA-PLP技术与谱减相结合的方法,对平稳加性噪声与通道畸变进行联合补偿.该方法首先采用谱减技术在频谱域进行平稳加性噪声的去除,然后在对数频谱域利用RASTA-PLP技术去除通道畸变.采用这种方法进行噪声补偿的语音识别系统,对高噪声背景下的语音取得了良好的识别效果.通过对应力影响下的变异语音分析得知,语音受到应力影响时,频谱能量在分布形式上明显向高频方向发散,基音频率也发生明显的变化.据此该文提出一种新的基于TEO(Teager Energy Operator)基频和频谱能量分布的联合特征,采用子空间分类方法对正常语音和变异语音进行分类,取得了很好的分类准确率.根据分频带识别实验结果,对Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient简称MFCCs)提取时传统的Mel映射尺度进行了修正,提出更加适合应力影响下变异语音识别的M-Expolog尺度,在一定程度上提高了系统的识别性能.该文的研究中,将变异语音分成两个部分:与其它语音相区别的不变的信息主体部分和随环境变化的变异部分.提出一种DTW(Dynamic Time Warping)与差别子空间相结合的变异语音识别方法,构造差别子空间去除变异部分的影响,利用语音的信息主体部分进行识别.该方法采用动态时间规正技术对语音特征矢量进行对齐,克服了传统差别子空间方法中特征矢量长度对齐方法的缺点,在训练数据有限的情况下,对应力影响下的变异语音取得了很好的识别效果.针对DTW与差别子空间相结合的识别方法,提出一种基于聚类思想的特征矢量求平均迭代训练算法,在保证识别率不下降的前提下,大大减小了系统的内存空间开销.说话风格变化是语音变异中重要的一类,通常表现为语速变快(Fast)、慢(Slow)、大声(Loud)、轻柔(Soft)、清晰(Clear)等.该文重点对语速变化的语音进行了研究.通过分析发现语速变化时语音的主要变异特点就是韵母段持续时间的变化,据此提出利用短时能量与保号率相结合的方法对语速变化的语音进行分类,取得了良好的分类效果.在DTW与差别子空间相结合的方法的基础上,提出了多路差别子空间方法,对语速变化的语音取得了很好的识别效果.提出的基于韵母段平均持续时间度量的HMM(Hidden Markov Model)自适应训练方法,能够快速对正常语音的HMM模型进行训练,以适应语速变化的情况.采用这种方法训练语速变化时的HMM模型,然后用所提出的多路HMM方法进行识别,是解决语速变化语音识别的另外一种有效途径.最后,采用对噪声联合补偿的方法提取特征,利用DTW与差别子空间法对包含背景噪声的综合变异语音进行了识别实验,与常规的HMM方法相比,识别率有大幅度的提高.