论文部分内容阅读
语音分离将目标语音从背景噪声中分离出来,去除了语音中的噪声,提高了听感知质量和可懂度,可广泛应用于助听器、移动通讯、语音识别、说话人识别等领域。基于深度学习的方法将语音分离形式化为一个机器学习问题,通过训练学习器,将输入的带噪语音转换为纯净的目标语音。与传统处理手段相比,这一方法大幅度地提升了语音分离的性能,具有广阔的研究前景。本文关注于语音分离问题,针对其中的主要问题提出了新思路和新方法。本文的创新点和主要贡献体现在以下几个方面:1.提出了将时频掩蔽目标和频谱映射目标相互融合的集成学习方法。通过比较训练目标不相同的分离模型的输出,发现了两类目标的互补性质,将多目标深度神经网络作为分离模型,同时预测时频掩蔽目标和频谱映射目标,在此基础上,比较研究了多种融合手段,最终采用多层感知器进行结果融合,并将分离模型与融合模型联合训练、整体优化。本方法充分利用了两类目标提供的互补信息,提高了系统的分离性能。2.提出了基于卷积神经网络的语音基音估计方法。通过对和语音基音直接对应的谐波结构的分析,发现了谐波结构在线性频谱中具有平移不变性的现象,因而提出使用能够建模平移不变性的卷积神经网络来刻画谐波结构,提升了语音基音估计的准确率。3.提出了语音分离和基音估计联合算法。通过对语音分离和基音估计两个任务的分析,我们发现对于语音分离任务,基音是有高度区分性的鲁棒特征。同时,对于基音估计任务,语音分离可以去除噪声,提升基音估计的准确率。因此,语音分离和基音估计可以相互促进共同提高。所以,提出了将两者相结合的联合算法,交替处理语音分离和基音估计两个任务,并将这一过程作为一个处理模块,嵌入到深度层叠网络中,自然地完成多次迭代,随着网络深度的加深,两个任务的性能都得到了提升。4.提出了单声道和多声道语音增强联合算法。通过对单声道和多声道的语音增强方法的分析,发现单声道语音分离可以减少噪声,提高麦克风阵列的导向向量估计的准确率,进而提升多声道语音增强的性能。同时,多声道语音增强可以提供单声道分离所需要的跨声道信息。因此,单声道和多声道语音增强方法可以相互促进共同提高。所以,提出了将两者结合的联合算法,交替进行单声道和多声道的语音增强工作,并将这一过程嵌入到深度层叠网络中,提升了语音增强的性能。本文介绍了目前流行的语音分离方法,总结了它们的优缺点,详细讨论了深度学习框架下的语音分离的处理过程、系统结构和研究方法,提出了多种提升语音分离相关任务性能的方法,并构建了实验系统,实验结果表明分离性能有了较大提升。