论文部分内容阅读
由特定物理事件引起的声波可以称为声音事件。对声音事件的特征提取和识别,可以帮助我们确定声音事件的类型,获取环境信息,从而指导生产和生活。声音事件识别过程分为特征提取和分类识别两个部分,现在主流的特征提取方法以传统语音特征为主,对声音事件的特征提取缺乏针对性。此外,由于声音事件受环境因素影响大,传统的分类器或分类算法难以对复杂的声音事件进行特征挖掘,在分类问题中表现一般。基于神经网络的分类模型效果较好,然而对训练样本的数量要求很高,难以在有限的数据集支撑下获得良好的识别效果。为此,本文在对声音特征提取与分类器设计的研究基础上,提出将样本扩增和数据增强方法同时应用到声音事件识别中,为声音事件分类识别研究提供一种新的方法。本文选取生活环境中常见的动物的声音、自然声景和水声、人类的非语音声、室内或家庭声音、户外或城市噪音等5大类50小类非语音声音事件为主要研究对象,使用音频录音文件作为声音数据集。本文在声音事件识别基本原理的基础上,设计了基于谐波分量和冲激分量分解的多种特征组合的特征表示方法,样本扩增和数据增强方法,以及基于残差神经网络的声音事件识别总体方案。首先对单通道音频文件进行谐波分量和冲激分量分解,将音频样本分解为两部分;在此基础上设计了组合特征提取方法,该方法对声音样本分别提取对数梅尔谱图、梅尔倒谱系数、色谱图、过零率,引入时域一阶和二阶差分得到特征组合。这种特征组合一方面符合人耳的非线性听觉特性,另一方面实现了频域和时域特征的结合,提高了特征刻画的全面程度。设计了音频样本扩增方法、基于线性混合与随机裁剪的数据增强方法,在SGD优化器超参数调优方面进行了一些分析。本文将数据集按照80%和20%的比例分割为训练集和验证集,经过5折交叉验证,在验证集上对50类声音事件分类获得了88.3%的准确率,超过了人工分类81.3%的准确率,说明本文所提方法对于声音事件具有良好的分类识别效果。