论文部分内容阅读
信源分离是指从混合信号中分离出源信号的技术,其中混合的具体过程是未知的。当混合信号录制于单声道时,由于可用的信道信息十分有限,因此单声道的信源分离更具挑战性。在本文中,我们所讨论的单声道混合信号是由歌声和音乐构成的,称为单声道歌声音乐分离(Monaural Singing Voice Separation,MSVS)。MSVS是目前信号领域的研究热点,并且是伴奏提取、歌词识别、歌手信息识别等实际应用的关键技术。早期提出的浅层分离模型由于对混合信号中的非线性关系的表达能力较弱,因此所获得的分离效果不尽人意。随着深度学习的发展,所提出的深度神经网络能够从混合信号中充分挖掘出其中的空间结构信息,从而推动模型实现更好的分离效果。目前分离模型通常将混合信号的幅度谱作为网络的输入特征,这种高维度且包含一定冗余信息的特征往往会加重网络的训练负担。此外,为了进一步提升对混合信号的表征能力,分离模型通常被设计为多层次、多单元的架构,而匮乏的训练数据往往会导致这种模型的严重过拟合。针对深度神经网络在处理单声道信源分离时所存在的问题,本文从分离模型的输入特征和训练数据扩充两方面展开讨论,主要完成了以下工作:(1)提出了基于特征增强的分离模型。该模型根据MSVS任务的特点和歌声、音乐分布的特殊性,通过卷积滤波器生成低维度、去冗余的特征,并进一步和高分辨率的混合信号幅度谱进行拼接和再处理以生成增强特征。这种增强特征保留了幅度谱的关键部分以降低模型的计算负荷,并通过拼接高分辨率的幅度谱来实现对分布较为稀疏的歌声部分进行补充。实验表明,相比直接使用幅度谱特征,基于特征增强的分离网络可以进一步改善分离效果,并有效缩短训练时间。(2)提出了基于生成式对抗网络和变分自编码器的数据增强模型。传统的手动数据增强方法基于混合信号中源独立的假设,然而源之间的相关性正是信源分离困难的主要原因。本文所提出的数据增强网络通过使用变分自编码器来对歌声和音乐的训练集分别进行建模以反转数据的生成过程,并且在变分编码器生成的潜在空间中加入了对抗性训练,使生成式对抗网络中的鉴别器对原始混合信号和生成的混合信号进行分辨训练。实验表明,所提出的数据增强网络可以生成高质量的混合信号样本,并进一步改善复杂分离网络的分离效果。