论文部分内容阅读
在典型的语音采集与通讯的应用中,采集到的声音都会受到各种各样的干扰,包括背景噪声、竞争话者语音、混响、远端通信传输或本地播报的声回声等。传声器阵列相比单个传声器能够利用声源的空间信息,进而较好的抑制噪声,提取期望方向的信号,因此被广泛的运用于免提通讯、助听、人机交互等领域当中。本论文主要关注传声器阵列音频/语音采集与增强,重点研究波束形成、阵列位置优化以及后处理等技术。我们分析了波束形成所一般使用的阵列模型,总结了常用的波束算法,以及波束性能评价指标。在此基础上,提出了一种用于高品质音频录音的阵列设计方案。由于高品质音频录音需要保留高频的信息,奈奎斯特定理要求其阵列间隔较小,需要较多的阵列单元。通过对阵列单元位置的优化,我们将单元个数控制在能够接受的范围,确保其工程上的可行性。并通过实验详细评测设计阵列的指向性、等效噪声级、频率响应,验证了其比同样长度的枪式传声器具有更好的性能。在阵列尺度较小且单元个数较少时,单纯依赖波束很难获得有效的语音增强效果。针对这个问题,论文探索了一种利用深度学习进行波束后处理的模型。在训练数据集的构造过程中,我们尽可能地考虑了各种声学场景,并通过不同通道之间的权值共享,使得模型具有很好的泛化能力,能够很好地处理实际测得的数据。客观指标和语音识别结果的对比表明:该方案的性能显著超过一般基于信号处理的后处理算法,有很强的应用前景。论文还总结了现有结合深度学习的语音前端信号处理的融合方案,分析了一些主流的模型,同时针对该领域将来可能的发展方向进行了一些讨论。