论文部分内容阅读
在现实环境中,语音信号往往受到来自不同声源的背景噪声的干扰。噪声会极大地降低语音信号的质量和可懂度,进而严重阻碍语音技术在实际中的应用。因此,如何从混合信号中提取出目标语音成为制约语音技术发展的一个瓶颈问题。根据系统中可使用的拾音器的多少,相关问题被称为多声道、双声道或单声道语音分离问题。其中,尤以单声道语音分离问题的求解最为困难。本文主要研究单声道语音分离问题。借助于计算听觉场景分析技术,我们对听觉分割、听觉重组和听觉特征分类进行了深入研究。在此基础上,提出了可以有效改进单声道语音分离效果的一些方法。本文的主要贡献如下:1.提出了基于组合线索和区域能量分布的听觉分割方法。在听觉分割环节,来自单一声源的邻近时频单元被合并成听觉片段。在该方法中,我们根据组合线索(包括互通道相关、时域连续性、起始和终止)将高频区域的时频单元合并成听觉片段。不仅如此,我们还根据混合信号的区域能量分布来估计听觉线索在高频区域的可信度,并以此来指导听觉分割过程。实验结果表明,该方法通过生成更加可靠的听觉片段,提升了分离系统的性能。2.提出了基于通道能量分布的听觉重组方法。在听觉重组环节,来自同一声源的听觉片段被重组到对应于目标语音和噪声的听觉流中。在该方法中,首先根据周期和幅度调制原则将听觉片段重组到听觉流中。然后,基于混合信号在频率通道的能量分布,在高频区域找出被噪声干扰严重的时频单元,并将它们从目标听觉流中去除。实验结果表明,该听觉重组方法可以从目标听觉流中去除更多由噪声主导的时频单元,从而改善了系统的分离效果。3.提出了基于组合线索和能量分布的听觉组织方法。在听觉组织阶段,混合信号的时频单元被分配到对应于目标语音或者噪声的听觉流中。该组织过程主要包括听觉分割和听觉重组两个环节。我们将所开发的听觉分割和听觉重组方法融合在一起,使之共同参与改进听觉组织的过程。实验结果表明,基于该方法的分离系统的性能优于之前的系统,尤其是在高频区域。4.提出了基于谐波和能量特征的单声道语音分离方法。该方法将语音分离问题转化为声音在时频域的分类问题。首先,在已有谐波特征的基础上,引入能量特征。然后,对于谐波特征明显且能量大的时频单元,在分类器训练阶段复制它们的特征,从而使得分类器对此类特征有更好的刻画能力。实验结果表明,该方法相比之前的方法有更好的语音分离效果。