论文部分内容阅读
语音分离的目的是从混合语音信号中分离出感兴趣的目标语音信号。其在语音识别、智能家居和刑侦信息检索等领域有着重要的研究意义和应用价值。传统的单声道语音分离技术往往需要对语音信号之间做出一些独立性的假设,忽略了语音信号的时序相关性,并且由于模型结构和规模的限制,使得系统分离性能不够理想。近年来深度学习技术在图像分割、语音识别、文本分类等领域有了重大发展,这为语音分离提供了新的解决思路。本文针对传统语音分离技术存在的问题,以深度学习技术为基础,在单声道语音分离任务上进行了以下研究工作:(1)考虑到语音信号具有时序相关性,而循环神经网络(Recurrent Neural Network,RNN)具有对时序建模的天然优势,因此本文设计了一种基于RNN的分离模型以实现在频谱域上对特定人语音进行分离。针对特定说话人的分离,通过将多个非特定人语音与特定人语音进行无重叠交叉混合来构建数据集用于网络模型的训练。此外考虑到标准RNN的长期依赖问题,又在其基础上分别构建了基于长短时记忆网络(Long Short-Term Memory,LSTM)和基于双向长短时记忆网络(Bi-directional Long Short-Term Memory,BLSTM)的分离模型。三种网络模型使用相同的网络参数,实验结果表现,BLSTM模型相比RNN和LSTM模型具有更好的分离性能和泛化能力。最后,在BLSTM模型基础上,通过优化相关参数,实现了最佳分离效果,代表总体分离性能的SDR指标达到了8.82dB。(2)考虑到以上使用的BLSTM模型仍然是在频谱上进行分离,在重构时域语音信号时使用混合语音的相位来估计目标说话人语音,不可避免的对分离语音带来不利的影响,因此设计了一种基于U-Net网络改进的时域语音分离模型。U-Net网络最大特点是具有编码-解码结构和跳连接融合层,能够对输入的时域语音信号进行多尺度特征提取和融合。由于时域语音波形是一维序列,因此将原始U-Net网络卷积一维化便于对时域波形进行特征提取;为了充分利用上下文信息且避免端点信息丢失,对输入数据在卷积之前进行了边缘填充;另外增加了网络深度以获得更大的感受野来提取更深层次的特征。并在此改进网络的基础上,进一步进行了输入参数和网络层数的调整以获得更好的分离模型,最终其SDR指标达到10.27dB。最后,将基于改进的U-Net时域分离模型和基于BLSTM的频谱域分离模型在同性说话人、异性说话人以及未经训练的说话人等多种混合语音上进行了整体分离性能和泛化性能的比较,实验结果表明基于改进的U-Net时域分离模型相比BLSTM分离模型,在异性说话人测试中SDR指标提高了1.45dB,在同性说话人测试中SDR提高了1.69dB;在对未经训练的说话人测试中,指标也基本高于BLSTM模型。以上结果表明改进的U-Net时域分离网络在整体分离性能和泛化能力上都明显提高了,证实了改进的U-Net时域分离方法的有效性。