论文部分内容阅读
在音频信息的研究中,环境声音识别是一个重要的问题,指计算机能够模拟人耳的听觉功能对一个短暂的音频信号进行分析,进而理解识别所得到的声音信号,赋予相应的类别标签。环境声音本身可以传递出很多重要的信息,对这些声音进行分析可以帮助人们监测环境中的状况,有助于声学的场景分析工作。目前,环境声音识别在安全监控、医疗监护、机器智能化以及人机交互等领域的应用价值尤为突出。环境声音识别任务目前存在很多挑战。一方面,不同于语音和音乐,环境声音具有复杂多变的频域特性和时域结构。就频域特性而言,声音可能是有规律音调的,在频谱上表现出明显的峰值,比如警笛声;也可能是类似噪声的,其频率分布横跨整个频谱,比如风声。就时域结构而言,声音可能是瞬时的,间断的和连续的。因此,如何针对环境声音的特点设计识别模型是一个很重要同时也是很有挑战性的问题。另一方面,环境声音开源数据集数据量非常有限,如何利用有限的数据集保证模型的泛化性能是另一个重要的问题。为了解决以上问题,本文主要从以下几个方面展开对环境声音识别的研究:首先,对基于卷积循环神经网络的环境声音识别模型进行深入研究。系统以声音的频谱图为输入特征,声音的频谱图刻画了信号的能量分布,通过卷积神经网络可以学习这种能量分布模式。另外,卷积神经网络的卷积核有能力学习到声音频谱图上的局部细节信息,更容易发现不同类型声音之间的区别;除此之外,声音信号在时间上存在着天然的联系,通过循环神经网络可以学习时间维度上不同帧之间的依赖关系,来弥补卷积神经网络在时间序列建模上的不足。卷积循环神经网络同时具备卷积神经网络和循环神经网络学习特征的能力。实验结果表明,卷积循环神经网络的识别性能优于一些典型的深度学习模型和传统分类模型。其次,对环境声音识别任务中的数据增强方法进行深入研究,并提出一种在线数据增强方案,用于环境声音识别任务。目前,公开使用的环境声音数据集数据量比较小,训练集和测试集数据分布差别较大,模型在有限的训练数据上很难获得很好的泛化性能。本文首先描述了现有的数据增强方法,并基于现有技术,提出一种在线数据增强方案。提出的增强方案在训练阶段直接对输入的声音频谱图进行处理,既保证了训练样本的多样性,又无需额外的数据和计算成本,具有很好的灵活性。提出的增强方案在几个公开数据集上的识别性能获得了较大的提升。最后,提出一种基于注意力机制的环境声音识别模型。环境声音信号复杂多变的时频特性使得模型设计具有很大的挑战性。为此,我们引入注意力机制,使网络能够自动关注语义相关的特征、丢弃不相关的信息,比如噪声信息。具体而言,针对复杂的时域结构,我们提出一种时间注意力机制,使网络对具有显著特征的时间帧给予更大的权重,对噪声或无声片段给予较小的权重。针对复杂的频谱分布,我们提出一种通道注意力机制,利用卷积核能够进行模式检测的特点,抑制卷积层中不相关的通道特征,保留重要的通道特征。进一步,我们结合了时间注意力机制和通道注意力机制学习特征的特点,设计一种学习能力更强的联合注意力机制。在实验中,我们对学习到的注意力权重进行了可视化,结果表明,我们提出的注意力模型能够使网络自动关注语义相关的特征,提高模型识别性能。本文ESC-10、ESC-50和DCASE2016几个环境声音识别基准数据集上评估了提出的方法,实验结果证明了所提出方法的有效性。