论文部分内容阅读
随着语音应用和人工智能的发展,智能机器人和智能音频设备越来越多地走进了人们的生活。在使用时,这些音频设备往往需要工作在复杂的声学环境中,说话人可能会随机地移动,目标说话人的语音可能会淹没在其他说话人的语音中,还可能会遭遇复杂的背景噪声和混响。在这样的环境中,音频设备不能没有机器听觉技术的帮助,而多通道声源跟踪及分离技术就是这一领域重要的组成部分。本文主要研究了多通道声源跟踪及分离技术,并针对传统方法存在的缺陷做了改进,完成的工作内容如下:
(1)本文研究了基于粒子滤波算法的通用声源跟踪框架。其中的定位算法采用相位加权可控响应功率算法(SteeredResponsePower-PhaseTransform,SRP-PHAT),该传统算法在低信噪比、高混响环境中的定位精度较差,从而影响跟踪效果。针对这一问题,本文将一种基于掩蔽值的加权方式引入通用声源跟踪框架,提出了改进的声源跟踪算法。与传统的相位加权方式不同的是,改进算法使用深度神经网络(DeepNeuralNetwork,DNN)为每个时频单元估计一个相位敏感掩蔽值(PhaseSensitiveMask,PSM)并将其作为该时频单元的权重,使携带纯净相位信息的时频单元获得更高的权重,降低被噪声和混响主导的时频单元对定位结果的影响。仿真结果表明,改进的声源跟踪算法在低信噪比、高混响环境中获得了比传统跟踪算法更好的跟踪效果。
(2)本文研究了几何源分离(GeometricSourceSeparation,GSS)算法及其后置滤波器。研究发现,当遭遇无指向性背景噪声或信干比较低时,单纯的GSS算法的分离效果会急剧恶化。针对这一问题,本文设计了一种基于DNN的后置滤波器,用于增强GSS算法的输出结果。使用GSS算法的输出音频作为DNN后置滤波器的训练数据,使其能够直接建模从GSS输出结果到纯净声源的映射,同时实现消除残余噪声和抑制通道泄露的作用。仿真结果表明,本文提出的基于DNN的后置滤波器相比于传统后置滤波器取得了更好的分离效果。
(1)本文研究了基于粒子滤波算法的通用声源跟踪框架。其中的定位算法采用相位加权可控响应功率算法(SteeredResponsePower-PhaseTransform,SRP-PHAT),该传统算法在低信噪比、高混响环境中的定位精度较差,从而影响跟踪效果。针对这一问题,本文将一种基于掩蔽值的加权方式引入通用声源跟踪框架,提出了改进的声源跟踪算法。与传统的相位加权方式不同的是,改进算法使用深度神经网络(DeepNeuralNetwork,DNN)为每个时频单元估计一个相位敏感掩蔽值(PhaseSensitiveMask,PSM)并将其作为该时频单元的权重,使携带纯净相位信息的时频单元获得更高的权重,降低被噪声和混响主导的时频单元对定位结果的影响。仿真结果表明,改进的声源跟踪算法在低信噪比、高混响环境中获得了比传统跟踪算法更好的跟踪效果。
(2)本文研究了几何源分离(GeometricSourceSeparation,GSS)算法及其后置滤波器。研究发现,当遭遇无指向性背景噪声或信干比较低时,单纯的GSS算法的分离效果会急剧恶化。针对这一问题,本文设计了一种基于DNN的后置滤波器,用于增强GSS算法的输出结果。使用GSS算法的输出音频作为DNN后置滤波器的训练数据,使其能够直接建模从GSS输出结果到纯净声源的映射,同时实现消除残余噪声和抑制通道泄露的作用。仿真结果表明,本文提出的基于DNN的后置滤波器相比于传统后置滤波器取得了更好的分离效果。