论文部分内容阅读
大多数群智感知中的语音识别系统在采集语音信号时所处的环境越来越复杂,并且对其所部署在的声学环境的性质存在敏感性,在存在诸如加性噪声,线性信道失真和混响的情况下,群智感知中的语音识别系统性能急剧恶化。因此,相比于传统的语音识别系统,群智感知中的语音识别系统需要更好的鲁棒性和压缩比。针对群智感知中语音识别系统面临的这些问题,该文对已有语音识别系统使用的梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficient,MFCC)进行改进,并把这种改进后的系数称之为“功率归一化倒谱系数”。首先,研究了传统MFCC的提取算法,分析了该算法每一处理过程的实现原理;补充了MFCC算法构成语音识别系统中使用的MFCCs;实现了MFCC的提取,但在实现的过程中,为了降低计算过程中的数量级对MFCC提取算法提出了猜想,并且对MFCC提取算法进行了补充实验以验证我们的猜想。其次,针对白噪声情况下的语音识别系统,为了提高语音识别的精度,在语音特征提取的前期处理阶段使用基于人耳耳蜗听觉模型的伽马通滤波器组代替MFCC算法中的梅尔滤波器组。再次,针对语音识别系统面临的声学环境退化和背景噪声水平评估问题,为了更加准确地估计声学环境恶化且更加容易地删除缓慢变化的语音分量,在语音特征提取的环境补偿阶段首先使用50-120ms的长时帧与短时帧相结合来分析参数,然后使用“非对称非线性滤波”估计每帧和每频带的声学背景噪声水平。最后,针对人耳更加关注入射功率包络的开始而不是该功率包络下降沿的特性,在语音信号处理块实现暂时掩蔽。对于输入信号功率,除上升的“攻击瞬变”外,暂时掩蔽抑制了其他部分信号功率的系统响应。同时,把输入功率除以正在运行的平均总功率来实现输入功率的归一化,以实现语音特征提取的实时性。