论文部分内容阅读
随着信息技术发展,人机交互的方式越来越多,实现声音事件识别技术作为辅助人机交互的关键技术逐渐称为研究热点。现阶段的声音事件识别算法多针对公共场所,对室内环境声音特点没有特定的优化,并且往往使用单声道音频并没有采用麦克风阵列。此外,现阶段的声音事件识别性能差、鲁棒性不佳等一系列不足。本文针对这些问题,研究了复杂环境下的室内多声道人类活动声音事件分类研究,本文主要工作如下:1.介绍了传统声音事件识别算法,分别对声音采集、预处理、特征提取、分类器进行研究,并通过仿真分析了其性能。2.针对室内复杂环境下的混响声音条件,研究了一种适用于混响条件下的波束形成算法,该方法基于盲源多路输入输出脉冲响应缩短算法,可有效改善室内环境下混响造成的时间和频率模糊。接着针对室内声音事件信号难以获得准确波达角和不同麦克风阵列几何参数获得的缺点,研究了复高斯混合模型的最小方差无失真响应波束形成算法,该算法可以广泛应用于不同参数的线性麦克风阵列,应对多音源情况,以及提升声音事件信号信噪比。3.对室内声音事件信号进行特征提取,除了提取传统的梅尔倒频谱系数,伽玛音调滤波器倒谱系数特征外,针对室内环境提取了信号的角度谱和频率筛选频谱图特征。4.本文分析了基于卷积神经网络(CNN)和循环神经网络(RNN)的声音识别方法,提出基于卷积循环神经网络(CRNN)识别室内声音事件信号,相对于传统的分类器,有识别性能高、鲁棒性强的优势。由于室内声音事件数据集大,卷积循环神经网络模型相对复杂,针对模型过拟和现象,本文还研究了Batch Normalization和Dropout抗拟合优化算法。通过实测实验分析了不同特征、不同神经网络参数、不同神经网络机构对分类结果的影响。参数调优后,卷积神经网络的识别性能可达到98%的F1值,验证了本文所提算法的有效性。