论文部分内容阅读
随着智能音箱,语音助手,智能办公,机器人等新技术的发展。智能化信号处理,特别是声音信号处理的需求越来越大。人工智能在信号处理领域的应用也越来越广泛。机器听觉和机器视觉一样,在未来将成为智能感知领域的重要应用。因此,在复杂环境,特别是存在环境噪音和室内混响的声学环境下,声源的定位和识别对于智能语音处理来说有重要的意义。麦克风阵列通过多个方向的接收声音信号,对于声源的到达方向(DOA)估计以及重叠声音的识别和分类起到了关键作用。利用麦克风阵列,本文对复杂声学环境下多个声源的定位和识别进行了研究和探索,主要的工作和创新如下:第一,构建了麦克风阵列的传播和接收信号数学模型,分析了基于到达时间差的GCC-PHAT和SRP-PHAT算法,基于谱估计的MUSIC算法和ISSM算法。以及LCMV自适应波束形成算法,并仿真验证了各类算法的性能。第二,进行了真实室内环境中窄带和宽带信号麦克风阵列定位实验,使用MUSIC算法和ISSM算法实现了实验数据的DOA估计,使用LCMV波束形成实现了实验信号的空域滤波。有效过滤干扰信号,保留需要的方向信号。对得到的信号进行降噪和增强处理,可以实现原始信号的恢复。第三,针对传统DOA算法无法实现声音信号分类的缺陷,本文了利用CNN+LSTM网络的方法,以信号频谱和GCC-PHAT谱作为输入特征,训练网络。实现了复杂环境下,同时存在的多个静止声源的识别和定位。并利用已知DOA信息实现了重叠信号的定向分离。测试表明该网络性能明显优于单独的CNN网络和只使用频谱作为输入特征的CRNN网络。第四,针对运动声源的识别和定位问题,提出了对参考的真实DOA方向轨迹进行下采样处理,解决了网络池化后的输出DOA数据与参考轨迹不匹配的问题。引入了Ambisonic空间音频格式的方向声音强度矢量作为输入特征,减少了DOA误差,实现了单个和两个运动声源的定位和识别。上述理论和方法已通过了仿真和实验数据测试验证。结果表明,本文提出的复杂环境下声源定位识别方法可以实现多重声源的分类和DOA轨迹跟踪,并具有一定的抗混响和噪声能力。