论文部分内容阅读
在语音信号处理领域中,将各个语音源信号从多个说话者的混合语音信号中分离出来,成为一个研究热点和难点,语音信号处理中的重要的研究方向,对语音识别、语音增强等都有着非常积极的作用。盲源分离(Blind source separation,BSS),指的是在源信号和传输信道参数未知时,仅由观测到的信号求出源信号的过程。在现今大多数的研究中,语音盲分离算法严格要求观测信号的数目大于或等于源信号的数目。然而,在实际情况中,经常会出现欠定情况,即观测信号的数目会小于源信号的数目的情况。在实际情况中还必须考虑到环境因素对信号传播的影响,会产生延迟效应,用数学的表示方法便是卷积的形式。因此,寻找高效的欠定卷积混合语音盲分离的方法具有非常重大的实际意义和价值。本论文针对欠定卷积混合语音的盲分离方法进行了研究:(1)基于快速独立分量分析和自适应非线性二元时频掩蔽的语音盲分离方法。对输入的混合语音信号进行快速独立分量分析,将结果进行自适应非线性二元时频掩蔽;重复进行这两步处理,直到分离出所有的语音源信号。将分离出的语音源信号,再通过二元时频掩蔽合并可提高输出的质量,分离出的语音信号仍然能保留双声道立体声的效果。实验表明,该方法的性能大大优于DUET方法和BLUES方法,信噪比增益大幅提高。(2)基于非负矩阵分解(NMF)的语音盲分离方法。本方法使用高斯分量对源信号的短时傅里叶变换(STFT)进行表示,高斯分量由基于板仓-斋藤(Itakura-Saito(IS))散度的非负矩阵分解的因子所组成。使用极大期望值算法(EM)求解参数,并对信号进行重组。本方法被应用到双声道立体声信号的盲分离实验,实验结果表明了该方法的有效性。(3)基于快速相对牛顿法和乘子平滑技术的语音盲分离。该方法运用语音信号的稀疏性和语音信号之间相互独立的特性,使用快速相对牛顿法,使得在牛顿法中,求海森阵的步骤大为简化,大大提高了运算速度。将乘子平滑技术运用到包含拉格朗日乘子的最大类型函数的平滑近似式中,获得了一个扩展的增广拉格朗日方法。该方法保证了在不增加问题维数的情况下平滑因子的快速收敛,取得了很好的分离效果。本文研究三种欠定卷积混合语音盲分离的方法,具有一定的理论意义和应用价值。