论文部分内容阅读
语音获取过程中不可避免地会受到环境噪声或者其它竞争声源的干扰,采用语音分离技术从带噪语音信号中分离出目标语音,是语音处理领域亟待解决且非常重要的问题。人类的听觉系统可以很轻松地将混合语音信号中的各路语音分离出来,但是对于语音分离系统而言,实现这样的分离任务却是极其困难的,尤其是在欠定情况下,即混合信号通道数小于源信号通道数,或者只有一个通道混合语音的情况。本文着重研究解决欠定混合下的语音分离问题,具体包括以下几个方面:(1)针对欠定卷积分离问题,本文分析了多种稀疏约束函数以及目标函数结构的优劣,给出了一种基于lq(0<q<1)范数的欠定卷积混合信号分离方法,该方法使用lq(0<q<1)范数来进行稀疏约束,并引入了对源信号时频谱的低秩约束,来更加精确地恢复源信号。推导出一种基于Proximity算子的对偶优化算法来对目标函数进行求解。在BSS Oracal数据库上,本文分别进行了语音和音乐的欠定卷积分离计算机仿真实验,实验结果表明,本文提出的方法有效地完成了欠定卷积混合情况下的分离任务。(2)针对单通道语音分离问题,本文给出一种基于时域卷积神经网络的单路混合语音分离方法,该网络的输入和输出都是时域语音信号。相比于传统的输入时频特征的神经网络而言,该结构具有以下两个优势:通过网络自动学习特征;不存在相位恢复的问题。这样的时域卷积神经网络可以将特征提取与分离语音融合在一个端到端的系统中,可以更加有效地完成语音分离的任务。为了进一步提高本文方法的分离性能,给出一种融合混合误差的目标函数,用来对时域卷积神经网络进行优化训练;同时,在网络的输出端,采用时频掩蔽模板对分离语音进行处理,以获得更好的听觉感受。本文在TSP语音库上进行了大量的计算机仿真实验,并与对比方法在相同的评价体系下进行了对比,实验结果表明本文给出的方法可以有效地提高单路语音分离的性能。