基于深度学习的环境声音识别

来源 :上海大学 | 被引量 : 0次 | 上传用户：chufs

【摘要】

：

在音频信息的研究中,环境声音识别是一个重要的问题,指计算机能够模拟人耳的听觉功能对一个短暂的音频信号进行分析,进而理解识别所得到的声音信号,赋予相应的类别标签。环境

【作者】

：

张智超

【出处】

：

上海大学

【发表日期】

：

2004年期

【关键词】

：

环境声音识别深度学习卷积循环神经网络数据增强注意力机制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在音频信息的研究中,环境声音识别是一个重要的问题,指计算机能够模拟人耳的听觉功能对一个短暂的音频信号进行分析,进而理解识别所得到的声音信号,赋予相应的类别标签。环境声音本身可以传递出很多重要的信息,对这些声音进行分析可以帮助人们监测环境中的状况,有助于声学的场景分析工作。目前,环境声音识别在安全监控、医疗监护、机器智能化以及人机交互等领域的应用价值尤为突出。环境声音识别任务目前存在很多挑战。一方面,不同于语音和音乐,环境声音具有复杂多变的频域特性和时域结构。就频域特性而言,声音可能是有规律音调的,在频谱上表现出明显的峰值,比如警笛声;也可能是类似噪声的,其频率分布横跨整个频谱,比如风声。就时域结构而言,声音可能是瞬时的,间断的和连续的。因此,如何针对环境声音的特点设计识别模型是一个很重要同时也是很有挑战性的问题。另一方面,环境声音开源数据集数据量非常有限,如何利用有限的数据集保证模型的泛化性能是另一个重要的问题。为了解决以上问题,本文主要从以下几个方面展开对环境声音识别的研究:首先,对基于卷积循环神经网络的环境声音识别模型进行深入研究。系统以声音的频谱图为输入特征,声音的频谱图刻画了信号的能量分布,通过卷积神经网络可以学习这种能量分布模式。另外,卷积神经网络的卷积核有能力学习到声音频谱图上的局部细节信息,更容易发现不同类型声音之间的区别;除此之外,声音信号在时间上存在着天然的联系,通过循环神经网络可以学习时间维度上不同帧之间的依赖关系,来弥补卷积神经网络在时间序列建模上的不足。卷积循环神经网络同时具备卷积神经网络和循环神经网络学习特征的能力。实验结果表明,卷积循环神经网络的识别性能优于一些典型的深度学习模型和传统分类模型。其次,对环境声音识别任务中的数据增强方法进行深入研究,并提出一种在线数据增强方案,用于环境声音识别任务。目前,公开使用的环境声音数据集数据量比较小,训练集和测试集数据分布差别较大,模型在有限的训练数据上很难获得很好的泛化性能。本文首先描述了现有的数据增强方法,并基于现有技术,提出一种在线数据增强方案。提出的增强方案在训练阶段直接对输入的声音频谱图进行处理,既保证了训练样本的多样性,又无需额外的数据和计算成本,具有很好的灵活性。提出的增强方案在几个公开数据集上的识别性能获得了较大的提升。最后,提出一种基于注意力机制的环境声音识别模型。环境声音信号复杂多变的时频特性使得模型设计具有很大的挑战性。为此,我们引入注意力机制,使网络能够自动关注语义相关的特征、丢弃不相关的信息,比如噪声信息。具体而言,针对复杂的时域结构,我们提出一种时间注意力机制,使网络对具有显著特征的时间帧给予更大的权重,对噪声或无声片段给予较小的权重。针对复杂的频谱分布,我们提出一种通道注意力机制,利用卷积核能够进行模式检测的特点,抑制卷积层中不相关的通道特征,保留重要的通道特征。进一步,我们结合了时间注意力机制和通道注意力机制学习特征的特点,设计一种学习能力更强的联合注意力机制。在实验中,我们对学习到的注意力权重进行了可视化,结果表明,我们提出的注意力模型能够使网络自动关注语义相关的特征,提高模型识别性能。本文ESC-10、ESC-50和DCASE2016几个环境声音识别基准数据集上评估了提出的方法,实验结果证明了所提出方法的有效性。

其他文献

面向弱标注图像的硬注意力算法的研究

针对图像识别问题,传统的深度学习方法往往需要对整个输入图像进行编码,无法有选择性的重点关注关键信息部分,且对数据集的要求较高,不仅需要人工对数据集进行加标签的工作,

学位

硬注意力弱标注图像识别强化学习领域自适应对抗训练

制度环境、高管创业者身份认同与公司创业的关系研究

20世纪末以来,在全球化和技术革新的双重作用下,更新企业的竞争优势取代了持续竞争优势成为企业长足发展的前提(Corbett,et al.,2013)。认识到更新企业竞争优势的需要使得管

学位

制度环境公司创业创业者身份认同管理者社会关系

基于CNN模型的半监督词义消歧

词义消歧在自然语言处理领域中是一个重要的研究问题。歧义词汇在不同的上下文中具有不同的含义。词义消歧是指采用一定的策略或算法自动确定歧义词语义的过程。词义消歧在搜

学位

词义消歧贝叶斯分类器CNN分类器消歧特征

动态肠镜息肉图像实时定位算法研究与实现

结直肠癌作为我国高发的癌症之一,其发生与结直肠息肉密切相关。结直肠息肉是一种常见的肠道疾病,结肠镜检查是目前最有效、最安全的检查方法。但由于其工作强度大,医师肉眼

学位

息肉定位卷积神经网络实时定位系统便携性

基于CNN的图像语义分割方法研究

图像语义分割是指根据一定的准则,将图像的前景与背景分离,对每个前景目标的像素分配预定义类别标签的过程。图像语义分割是计算机视觉、图像处理和人工智能的交叉研究领域,

学位

卷积神经网络图像语义分割Shufflenetv2DenseASPPSE模块

高能碰撞中不同粒子的横动量分布和核修正因子的研究

高能碰撞实验在粒子物理学研究中有着重要的地位。在实验中产生了大量的可观测粒子,携带着强相互作用物质(被称为夸克-胶子等离子体)的相关信息。粒子的横动量谱可以用来分析

学位

高能核碰撞统计方法分析横动量谱核修正因子

越野场景的道路检测

无人驾驶技术在越来越多的场景下都得到了广泛应用。越野环境下无人驾驶技术是军用地面无人平台的基础,其中道路检测作为无人驾驶系统的一个重要组成部分,在环境感知和路径规

学位

越野场景道路检测道边曲线拟合局部路径规划深度学习

基于贝叶斯网络的刚构桥桥面标高预测方法

标高控制是预应力混凝土连续刚构桥施工的重要环节。本文围绕预应力混凝土连续刚构桥的标高控制问题展开系列研究,旨在提出一种标高预测的优选方法。主要工作及结论如下:(1)

学位

标高预测敏感性分析卡尔曼滤波法贝叶斯网络

基于多尺度多维度的体肺分流血流动力学数值研究

随着计算机软件、医学影像技术和医学图像处理软件的不断进步,计算流体动力学(Computational Fluid Dynamics,CFD)在心血管系统中的应用不断深入,使得CFD模拟结果逐渐为临床

学位

血流动力学多尺度多维度模型计算流体动力学能量损失氧气递送量

物联网跨域身份认证研究

物联网中负责收集数据、执行命令的物联网设备和对数据进行计算、处理的物联网应用系统是物联网的两个重要组成部分,但是多样的设备和异构的应用系统让物联网处在物联网处在

学位

物联网身份认证跨域访问可信度

基于深度学习的环境声音识别

其他学术论文