论文部分内容阅读
音频场景识别(Audio Context Recognition)是人工智能领域重要的研究方向之一,该技术依据周边声音感知环境动态,对机器作出进一步智能选择有着非常重要的意义。近年来有较多的学者涉足这一研究方向,他们大多采用先特征提取后分类器分类的研究框架,其中,对如何提取能够反映音频场景声学特性的识别特征方面给与了较多的关注。所采用的声学特征可以粗略的分为两大类:短时特征和长时特征。短时特征如单音轨梅尔频率倒谱系数、多音轨梅尔频率倒谱系数、梅尔频率倒谱系数和稀疏特征的联合特征等;长时特征多为音频段的长时统计值或基于语义相关性的特征等。从研究结果上看,目前的声学特征都有其不足之处,短时特征往往不足以完整地刻画一个音频场景的特性,长时特征往往缺乏对音频段内部细节的描述,而长时统计值中缺失的内部结构信息对区分音频场景也有重用的价值。本文对既能反映音频段长时特性又能反映局部结构性的声学特征的提取方法进行研究,并验证了它们在音频场景识别任务中的有效性。深层神经网络能够通过自学习来发现适合分类任务的特征向量,这已经在图像尤其是自然图像的结构性特征分析方面得到了验证,这些特征提取方法能够很好地反映出图像的结构信息,相对于主观分析方法有着很大的优势。所以,本课题借助深层神经网络的特征分析能力在语谱图上进行场景长时结构性特征的分析与提取。主要研究内容如下:首先研究了基于卷积神经网络的音频场景特征分析提取方法,卷积神经网络通过卷积和下采样操作对输入数据进行非线性映射,最终通过重构误差的反向传播进行参数的调节,从而提取出能够刻画音频场景特性的声学特征。卷积神经网络在训练是以输入数据的类别重构误差最小化为优化目标的,所以训练过程需要大量的有标签数据。现实情况下,往往难以得到大量带标签的训练数据,因为对数据进行标注费时费力,所以本文也提出了基于解卷积神经网络的特征提取方法。解卷积神经网络模型在特征分析处理过程中不仅保留了卷积神经网络的卷积操作和下采样操作,而且还在原来的基础上有了些改进,其参数更新过程是基于对输入数据重构误差的反向传播进行的,这样就不需要带标签的数据。采用这种特征提取方法,音频场景数据的采集相对来说就较为容易,训练数据不足的问题就得到了很好的解决。通过实验验证,我们得到的结果是,采用基于卷积神经网络得到的音频特征,进行场景识别的性能有很大提升;基于解卷积神经网络分析得到的特征虽然对识别性能没有较大的提升,但是针对训练数据不足的问题它还是有效的。