论文部分内容阅读
随着互联网及新媒体平台的迅猛发展,音频数据总量变得越来越庞大。在大数据及人工智能的背景下,音频场景识别技术可应用的领域越来越广泛,其重要性不言而喻。音频场景识别本质上是对声音信号中包含的声音特征及声学事件进行感知,并加以处理和分析,从而对音频信号进行分类。声学特征的选择直接影响分类结果的好坏,因此选择合适的声学特征尤其关键。梅尔频率倒谱系数(MEL Frequency Cepstrum Coefficient,MFCC)能够模拟人耳对声音处理的特质,计算方面较其他声学特征更容易,能够抓取信号中具有辨识度的部分。因此,在有关音频识别的分类任务中,MFCC的抗干扰能力优于其他声学特征。近年来对于人工智能的研究渐渐成熟,深度学习技术飞速发展,在模式识别、机器学习等领域取得了革命性的突破,使得越来越多的人投身有关深度学习的研究。深度神经网络是深度学习当中的一个重要研究方向,相较于浅层神经网络,其拥有更复杂的网络结构,更强大的运算组合能力,更细致的特征分析能力。卷积神经网络(Convolutional Neural Network,CNN)采用深度学习构架,是深度神经网络中的一种经典网络模型,具有权值共享、局部连接等特性。这使得卷积神经网络在训练过程中所需要学习的参数更少、网络节点更少,降低了网络复杂度,减少计算开销。卷积神经网络具有出色的特征提取能力,由于特有的网络结构,其抗畸变能力更强,具有输入不变性,在分类任务中表现尤其出色。本课题选用MFCC作为场景音频所提取的声学特征,利用CNN在特征提取及分类方面的优越性能对声学特征进一步抽取和分析,得到更加高级、抽象的特征,并对其进行分类,达到提升分类准确率的目的。本文主要工作如下:(1)对音频场景识别技术、深度学习、声学特征等方面展开深入调研,整理并总结各领域国内外发展现状,对深度学习及音频场景识别技术的发展历程、声学特征的分类及其特点进行了详细介绍。(2)阐述了MFCC的原理并给出提取流程,介绍了K近邻算法(K-Neighbor Nearest,KNN)的理论基础及分类流程,设计并搭建了使用KNN作为分类器的基线实验系统,调整重要参数进行多组对照实验,得到并分析实验结果。(3)介绍了CNN的网络结构、计算方式、学习算法及应用范围等。设计并搭建了基于MFCC和CNN的音频场景识别系统,给出了实验整体流程及系统中卷积神经网络的网络构架。首先,对场景音频进行声学特征的提取,将声学特征数据集分为训练样本集及测试样本集两类。接下来利用训练样本集对卷积神经网络进行训练,使网络训练至收敛,使权值等参数的学习达到最优状态。最后,使用完成训练的卷积神经网络对测试样本集进行音频场景的识别,得到场景识别准确率。同时,对CNN中的重要参数:卷积核大小、特征图数量、激活函数等进行调整,对比在参数调整后分类准确率的变化大小及趋势。通过对两组实验结果的观察可以得到,基于MFCC和CNN的场景识别系统的整体识别率比基线系统高出1.4个百分点,通过调整卷积核尺寸、特征图数量等参数后,整体识别率又有小幅度上升。因此,基于MFCC和CNN的实验系统在整体识别率方面优于基线系统。