论文部分内容阅读
语音在通信过程中不可避免的受到周围环境噪声的干扰,噪声过大时不仅使人们听不清对方的谈话内容,还容易使人们疲劳,产生烦躁的情绪。所以在接收端要进行去噪声处理,这就是语音增强技术或噪声抑制技术。在不引入新的噪声前提下如何有效的去除噪声又能保持语音不失真是语音增强的目的,从而提高语音信号的质量和可懂度。提高语音质量可以减少听者的疲劳,提高可懂度可以减少失真。语音增强广泛应用于语音识别、语音编码等系统中。在免提设备、助听器等领域的应用也越来越多。除此之外,在人机对话、机器翻译、蓝牙、智能家居等方面也发挥着越来越大的作用。经过几十年的发展,语音增强已经有许多成熟有效的算法,这些算法大致可分为基于谱减的语音增强方法、基于统计模型的语音增强方法、基于信号子空间的语音增强方法以及基于维纳滤波的语音增强方法。由于经傅里叶变换后的语音信号能量大多集中在低频部分,并且具有良好的去相关特性,语音增强方法中大部分算法都是在短时傅里叶变换域实现的。而有些方面的应用,如在语音编码中,功率谱估计器比幅度谱估计器能获得更好的性能。无论功率谱减法还是幅度平方谱估计器都假设带噪语音信号的功率谱可以表示为纯净语音和噪声功率谱之和,并且功率谱由幅度平方谱近似估计。基于这一假设,本文提出了基于功率谱稀疏表示的语音增强方法。稀疏表示是从一个过完备字典中选择少数原子以线性组合的形式来表示一个信号的全部或大部分信息,可以应用非负矩阵分解或压缩感知等技术获得最稀疏的线性组合。本文利用加非负限制的近似K奇异值分解(K-singular Value Decomposition,K-SVD)方法训练纯净语音的功率谱字典,然后利用最小角回归(LeastAngle Regression,LARS)算法获得纯净语音功率谱的稀疏表示,再把重构的功率谱应用于基于短时幅度谱的信号子空间方法(Signal SubspaceApproach Based on Short-time Spectral Amplitude,SSB-STSA)中,最后结合带噪语音信号的相位和傅里叶逆变换得到纯净语音信号的时域估计。LARS算法是根据估计的噪声功率谱设定一个合理参数作为终止准则的。带噪语音功率谱和稀疏重构得到的功率谱之差的l2范数如果小于设定的参数,算法就终止。由于该方法的噪声功率谱利用带噪语音初始段和静音部分,采用直接判决方法估计,所以只在平稳白噪声环境中可取得较好的增强效果。因为纯净信号与噪声信号谱之间的相关项不为零,所以把带噪语音信号的功率谱表示为纯净语音和噪声功率谱之和假设是不准确的。利用带噪语音、纯净语音和噪声谱之间的向量关系可以得到相关项的估计,这一估计可以表示为瞬时先验信噪比和瞬时后验信噪比的函数。本文基于相关项不为零的模型提出了新的基于功率谱稀疏表示的语音增强方法。采用最小控制递归平均(Minima Controlled Recursive Averaging,MCRA)方法对噪声的功率谱进行估计。把估计的噪声功率谱和相关项估计之和的l2范数作为LARS算法的终止准则,从而得到纯净语音功率谱的稀疏表示。字典仍然采用加非负限制的K-SVD算法训练得到。而且我们提出了一种利用当前帧而不是前一帧语音功率谱估计瞬时信噪比的方法。由于语音信号在前一帧和当前帧之间是时变的,对语音增强来说利用当前帧来估计瞬时信噪比是非常重要的。新的语音增强方法应用了更合理的语音模型和终止准则,所以适用于更多的噪声类型,尤其在低信噪比环境中获得了更好的估计性能。大多数语音增强方法都是在频域通过应用增益函数实现的,需要同时估计语音信号功率谱和噪声功率谱。这意味着语音增强系统的性能一部分取决于噪声功率谱估计的准确程度。传统的噪声功率谱估计方法通常利用带噪语音信号起始段或静音部分进行估计,而静音部分需要使用语音活动性检测算法进行检测。语音活动性检测算法只对平稳噪声检测结果较好,然而在低信噪比时误差较大。对于非平稳噪声,功率谱变化较快,所以在估计噪声功率谱时要及时对其进行更新。噪声功率估计过高或过低会产生降低可懂度或引入音乐噪声的不良影响。本文基于低复杂度低时延的无偏最小均方误差噪声功率谱估计方法,提出了基于语音存在概率的噪声功率谱估计方法。该方法基于幅度平方谱语音信号模型,利用由后验信噪比不确定性决定的后验语音存在概率来更新噪声功率谱的估计。该方法得到的噪声功率谱估计的最大值和无偏噪声功率谱估计方法接近,但提高了低估计值,所以很好地估计了噪声又避免了过高估计导致的信号失真。同时该方法又能快速跟踪噪声功率谱的变化,对平稳噪声和非平稳噪声都具有良好的估计效果。一般认为人耳对正弦信号的相位改变或相对相位的改变不敏感,也有学者认为语音信号中正弦成分相位变化或相位的突然变化会导致语音质量的下降,信号的相位包含了大量的信息。但是基于幅度谱的语音增强算法认为相位信息不能提高语音质量,因而只对幅度谱进行估计,忽略了相位信息。近年来,越来越多的学者关注语音增强中相位的重要性。本文在给定相位的最小均方误差(Minimum Mean-Square Error,MMSE)幅度谱估计器的基础上,提出了一种相位估计方法。该方法利用瞬时先验信噪比和瞬时后验信噪比推导出了相位差的特定表达式,进而利用反余弦函数和带噪语音的相位,得到了纯净语音的相位估计。本文算法是给定相位的MMSE幅度谱估计器补充和扩展,并且这一相位估计算法可以和其它幅度谱估计器相结合,从而提高增强后语音信号的质量。