论文部分内容阅读
室内混响声会严重影响音频信号的清晰度和可懂度,进而影响语音识别,助听器和声源定位的性能。此时,切实有效的混响消除方法就变得极为必要。尽管混响消除技术取得了持续和稳定的进步,但是我们仍然没有在这场战争中取得成功。在过去的几十年中,有很多无监督的语音去混响方法被提出,它们有些是通过估计房间脉冲响应的逆滤波器来解卷积混响信号,但是由于房间脉冲响应是1)未知的;2)时变的;3)具有很长的长度;4)不是最小相位系统,因此对房间脉冲响应的跟踪和估计变得十分困难。近年来,由于深度神经网络强大的学习能力,其被成功应用于语音增强,语音分离和带宽扩展等领域,这给了语音去混响任务的研究人员很多启发。深度神经网络的深层非线性结构可以被设计成一个精细的去混响滤波器。同时基于大数据训练,深度神经网络可以充分学习混响语音和无混响语音之间的复杂的非线性关系。因而在本论文中,不同于以往的传统信号处理的方法,我们提出一种基于深度神经网络的语音去混响方法。首先,我们提出了基于深度神经网络的单通道语音去混响框架,对数功率谱被用作训练深度神经网络模型的特征。深度神经网络采用线性的输出层和目标特征全局均值方差归一化的方法。深度神经网络作为映射函数,可以从混响语音中预测出无混响语音。几十种房间脉冲响应被用来构建大规模训练数据,以此提高深度神经网络模型对未见的测试混响环境的适应性。此外小规模训练集用来评估深度神经网络去混响系统在不充足的训练语料下的性能表现。其次,目前已有的去混响算法对混响环境均没有感知能力。由于混响环境的严重程度可以通过混响时间来衡量,因此我们研究了两个和时间相关的参数:帧移和帧扩。研究表明在深度神经网络训练中采用混响时间感知的帧移和帧扩会大大提高系统对混响环境的鲁棒性。因此我们提出了基于混响时间感知的深度神经网络单通道语音去混响框架。再者,我们将单通道的深度神经网络语音去混响框架扩展到了多通道。我们首先提出了基于深度神经网络的多通道语音去混响框架,该系统的输入为多个麦克风阵元提取出的混响特征集的串联,目标为参考阵元的无反响特征,深度神经网络作为映射函数从而同时实现了波束形成和去混响。此外混响时间感知技术在单通道上对混响环境表现出很强的适应性,因此我们通过采用混响时间感知的空时域信息,提出了基于混响时间感知的深度神经网络多通道语音去混响框架。最后,学术研究者普遍认为前端的语音增强不会给后端的语音识别带来性能提升,因为后端的语音识别系统对前端语音增强后引入的干扰非常敏感。而我们相信在非理想的声学环境下,前端信号处理算法会给后端的语音识别带来益处。因此我们提出了基于深度学习的端到端远场语音去混响和语音识别系统,该系统同时能够取得较好的语音质量和语音识别率。在本论文的最后,我们给出了全文总结,并对该课题的未来进行了展望。