论文部分内容阅读
近年来,人们对生活质量的要求日益升高,健康舒适的居住环境成为人们关注的重点,环境噪声投诉占环境投诉的比例也明显升高。然而,如今的噪声监测只有声压级一个指标,忽略了声源这一对人耳有重要影响的因素,相同声压级的音乐声与汽车噪声相比,人们显然对前者有更高到的接受度。针对这一现象,本文借鉴声音景观理论,采用主观评价的方法对不同声源组合的噪声划分等级,并利用深度学习算法识别出环境声音的噪声等级,给环保工作者在噪声监测工作中以更加科学的指导。
提取合适的特征是进行环境声音分类的首要任务。与其他音频信号相比,环境声音比较复杂,一条声音片段中会交替出现多种声源。单使用时域的特征难以取得好的分类效果,梅尔频率倒谱系数是频域上最常用的特征,然而,它对噪声比较敏感,不适用于复杂的环境声音分析。对数梅尔声谱图结合了时域和频域的特征,又符合人耳的听觉特性,基于深度学习的分类方法有望取得好的环境声音分类效果,因此,本文提取的环境声音特征为对数梅尔声谱图。
模型的选择对环境声音分类结果具有重要的影响。深度学习方法比传统的信号识别方法更具优势。目前,基于深度学习的声音分类方法大多借鉴图像处理技术、语音识别方法和自然语言处理方法,采用卷积神经网络或者循环神经网络作为分类模型。卷积神经网络能高效的获取图像的局部特征信息,却难以利用上下文信息,循环神经网络能获取上下文信息,但是网络结构复杂,效率较低。通过分析声音信号的特性,本文结合卷积神经网络和循环神经网络的优点,设计卷积循环神经网络作为分类模型,按照局部特征、全局特征、上下文信息的顺序进行特征提取,进而更好的实现声音分类。鉴于对数梅尔声谱图的频率较高,卷积神经网络容易丢失平移不变性,其平移不变性的丢失主要是由下采样引起的,为了缓和这一现象,本文引入模糊池化来改善最大池化层。在环境声音信号中,背景信号比较复杂,且占较多比例,本文引入门控线性单元作为卷积神经网络的激活函数,尽量忽略背景信息,提取更有用的特征。
本文主要是在深圳市各区域采集的环境声音上进行实验,并对基本卷积循环神经网络模型与改进后的模型进行对比分析,实验结果证明了本文提出的改进方法的有效性。
提取合适的特征是进行环境声音分类的首要任务。与其他音频信号相比,环境声音比较复杂,一条声音片段中会交替出现多种声源。单使用时域的特征难以取得好的分类效果,梅尔频率倒谱系数是频域上最常用的特征,然而,它对噪声比较敏感,不适用于复杂的环境声音分析。对数梅尔声谱图结合了时域和频域的特征,又符合人耳的听觉特性,基于深度学习的分类方法有望取得好的环境声音分类效果,因此,本文提取的环境声音特征为对数梅尔声谱图。
模型的选择对环境声音分类结果具有重要的影响。深度学习方法比传统的信号识别方法更具优势。目前,基于深度学习的声音分类方法大多借鉴图像处理技术、语音识别方法和自然语言处理方法,采用卷积神经网络或者循环神经网络作为分类模型。卷积神经网络能高效的获取图像的局部特征信息,却难以利用上下文信息,循环神经网络能获取上下文信息,但是网络结构复杂,效率较低。通过分析声音信号的特性,本文结合卷积神经网络和循环神经网络的优点,设计卷积循环神经网络作为分类模型,按照局部特征、全局特征、上下文信息的顺序进行特征提取,进而更好的实现声音分类。鉴于对数梅尔声谱图的频率较高,卷积神经网络容易丢失平移不变性,其平移不变性的丢失主要是由下采样引起的,为了缓和这一现象,本文引入模糊池化来改善最大池化层。在环境声音信号中,背景信号比较复杂,且占较多比例,本文引入门控线性单元作为卷积神经网络的激活函数,尽量忽略背景信息,提取更有用的特征。
本文主要是在深圳市各区域采集的环境声音上进行实验,并对基本卷积循环神经网络模型与改进后的模型进行对比分析,实验结果证明了本文提出的改进方法的有效性。