论文部分内容阅读
语音信号的盲分离作为盲源分离技术(Blind Source Separation,BSS)的一个主要研究分支,广泛应用于语音识别、移动通信、音频编码与操作、音乐分析等技术领域,是国内外学者们研究的热点课题之一。目前,盲分离算法已经有了一定的理论基础,但在实际的研究中仍然有很大的改进空间,因此近年来许多新型的算法被相继提出,其中基于非负矩阵分解(Non-negative Matrix Factorization,NMF)的盲分离算法被证实了更符合语音信号的特性,在语音信号的盲分离中具有重要的研究价值。 本文在分析和总结前人研究的基础下,针对瞬时线性混合语音信号的盲分离问题,研究和改进了基于非负矩阵分解的盲分离算法,主要工作如下: 1)总结了盲源分离的研究现状,对语音信号处理和盲源分离的基本理论知识进行了系统归纳,详细介绍了非负矩阵分解的基本算法。 2)针对单通道的混合语音盲分离问题,提出了基于平滑性约束的板仓-斋藤散度非负矩阵分解算法(SM-NMF)。首先将观测信号的功率谱矩阵分解为基本频谱矩阵和时变增益矩阵,从而建立起非负矩阵分解模型;然后对基于板仓-斋藤(Itakura-Saito,IS)散度的目标函数添加能够反映时变增益矩阵平滑性的约束项;最后通过构造辅助函数得到的最小优化算法来迭代地解决新目标函数的优化问题,求出各分解因子矩阵的优化解并重构源信号。通过人工合成及真实环境下的混合音乐段的分离实验证明了该算法的可行性。 3)针对欠定多通道的混合语音盲分离问题,提出了改进的基于板仓-斋藤散度的非负矩阵分解算法。首先对观测信号进行稀疏变换并利用改进的余弦势函数聚类算法来估计混合矩阵的初值;然后将每个源信号的短时傅里叶变换(STFT)看作是一个由多个高斯分量所组成的复杂随机变量,结合统计学中的复杂高斯分布和基于板仓-斋藤散度的非负矩阵分解因子建立起参数模型;最后利用最大期望算法(Expectation-maximization,EM)迭代求解混合矩阵和分解因子矩阵优化解,并对源信号进行重构。通过人工合成的语音段及真实环境下的立体声音乐段的分离实验证明了该算法的有效性和相比其他算法的优异性。