论文部分内容阅读
语音分离技术在语音识别和说话人识别等语音处理系统中发挥着重要作用,高质量语音不仅能更好地满足入耳听觉需求,也是后续语音处理的重要保障。实际环境中的语音往往会受到干扰,这使得语音分离多年来一直受到研究者关注。语音分离的核心思想是模拟人的听觉系统从复杂的混合信号中将各路源信号单独分离出来。本文致力于研究欠定条件下的语音分离方法,主要研究成果包含以下几个方面:(1)本文提出一种将传统逐层分离与softmax分类器结合的单路源信号提取方法,该方法适用于从几路观测信号中抽取出某一路感兴趣的目标语音。首先,以目标人任意一段语音作为参考信号,然后对观测信号提取单源点并利用单源点特征训练softmax分类器,接着用训练好的softmax模型对参考信号特征进行分类,确定待提取的目标人语音,最后通过构造消源矩阵逐次消源,以分层的方式来分离各个时频点。与对比方法相比,该方法具有较低运算复杂度,同时不需要太多的先验信息。(2)基于深度神经网络强大的非线性映射和自学习能力,本文提出一种有监督的、强区分性的单通道语音分离方法。首先,本文将信号的相关系数和负熵加入目标函数,从而降低信号间的干扰。此外,为了提高学习系统的泛化能力,本文将类似人脑学习规则的课程学习融入神经网络的学习中,使得神经网络从易到难学习训练样本。不管是与基于非负矩阵分解的方法相比,还是和其他基于深度神经网络的方法比较,本文提出的方法都具备更好的分离性能。(3)本文研究了将矩阵分解和深度神经网络结合解决单通道语音分离问题。首先,分别对源信号进行矩阵分解得到字典和编码矩阵,接着用源信号编码矩阵和混合信号训练深度神经网络,用深度神经网络预测编码矩阵,最后,对于测试的混合信号,将源信号的字典和神经网络预测的编码矩阵相乘,即可恢复源信号。与传统的基于矩阵分解的单通道分离方法相比,该方法能更准确地估计编码矩阵,但需要以增加深度神经网络训练这一过程为代价。本文在TIMIT语音库上进行了一系列的计算机仿真实验,将本文提出方法与对比方法在评价体系下进行比较,实验结果证明了提出方法有更好的性能。