基于深度学习的声音事件识别算法研究

来源 :西南科技大学 | 被引量 : 1次 | 上传用户:wjyai333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为非语音音频分类任务中最重要的研究领域之一,声音事件识别被广泛应用于音频监控、音频场景分析、生物声学监测、医疗诊断等领域。声音是信息传播的主要途径,通过分析声音中携带的信息指导人类的生活和生产,提高生活生产效率。传统的特征提取器在设计的时候需要研究者具有大量的先验知识以及进行复杂的计算;传统的人工设计的网络模型对声音进行建模,其精度难以达到令人满意的结果。本文将使用深度学习的方法解决声音事件识别任务。针对声音事件识别技术中输入特征图维度单一导致携带信息不充足的问题,本文设计了一种多通道多分辨率的特征。首先选用对数梅尔特征、伽马通滤波器倒谱系数、恒定Q变换、色度特征组成四通道特征,不同特征之间可以实现信息互补。由于不同的声音对时间尺度的灵敏度不一样,通常具有辨别能力的特征会存在于不同的时间尺度中,本文设计了声音信号的多分辨率特征。它可以实现不同特征分辨率之间信息互补,增强特征的表达能力。针对声音事件识别模型精度不高的问题,本文提出了时频注意力模块。前面设计的多通道多分辨率特征的引入必定导致信息冗余和背景噪音,该时频注意力模块先利用不同大小的条形卷积分别关注时域和频域中的有效信息,再利用二维卷积将两者进行融合,从而抑制环境声中背景噪声并消除由多通道多分辨率带来的冗余信息干扰。针对声音事件识别任务样本不足的问题,通过对实际环境的调研,构建了音频数据库Audio-7,该数据集主要包含7类声音,共1050个样本,为了保证样本的独立性,每个样本都是来自不同的音频片段。此外又利用数据增强:时间拉伸、音调偏移、添加随机高斯噪声等技术进一步缓解由于数据集不足而产生的一系列问题。最后在ESC-10、ESC-50和自建数据集Audio-7上分别进行了实验,利用消融实验验证了多通道多频率特征、时频注意力模块以及数据增强的有效性,在只有对数梅尔特征且不进行数据增强的时候,三个数据集上的精度分别为89.32%、82.76%、85.00%;加上提出的时频注意力模块和多通道多频率特征以及数据增强最终能达到98.50%、88.46%、92.50%,分别提高了9.18%、5.70%、10.50%。如此显著地提升已经可以证实每个模块的正向作用。
其他文献
在实际场景中,视频图像采集常受多种环境因素影响,使得采集图像在局部或全局区域照度偏低,视觉效果差。即便在有光源补充的4K内窥镜场景,也难免因腔体深度、组织遮挡等因素,导致内窥镜图像的照度不均匀。目前,已有的亮度均衡算法为了达到更好的增强效果,大多数都以更高的算法复杂度为代价,此类算法难以应用于有实时需求的场景。因此,本文围绕4K低照度视频图像的亮度实时均衡问题,展开了对亮度均衡算法的研究、并行实现
学位
中国拥有丰富的山地资源,在这类环境下进行军事作战通信、民用应急通信、地质灾害监控等工作就显得十分必要。无线通信凭借其组网灵活、扩展性强、时效性高等优点已经成为在这类环境下通信的主要手段。但是目前缺少对这类信道特性的较为系统的科学研究,造成了在实际应用场景下快速建立有效和可靠连接的困难,制约了山地环境下无线通信的发展。鉴于山地环境的复杂性,植被的类型、地势的起伏、通信站的布点位置等都会对无线电波的传
学位
肝癌是世界上最常见的癌症之一,它严重威胁人们的生命。肝脏及其肿瘤分割是肝癌治疗中的重要步骤。对腹部CT影像进行肝脏肿瘤分割是一种常规的辅助诊断手段。然而CT影像中肝脏附近存在密度与其相近的器官,并且肝肿瘤具有边界模糊、位置随机、数量不确定、形态和大小不一等特点,这些均是制约肝脏肿瘤分割效果的不利因素。近年来,针对CT影像的深度学习分割方法已有不少研究,但是这些方法在肝脏及其肿瘤分割中存在过分割、欠
学位
在航空航天、空气动力学等领域中,摩擦阻力的测量一直是研究的重点。在摩擦阻力作用下,流体运动能够表征边界层的状态变化。摩擦阻力不仅是描述湍流边界层的一个重要物理量,同时摩擦阻力对于航空飞行器的外壳设计方式也有相当重要的参考价值。本文首先对近年来的摩擦阻力测量方法展开了调查。对比众多方法选择了荧光油膜全局测量技术,以这项技术为基础开展了荧光油膜全局测厚及摩阻测量误差分析研究。首先着手于荧光油膜全局测量
学位
核素识别技术是我国核技术和核工业的发展中的关键性技术,同时也是保障国家核安全的基石,传统核素识别的主要思路是寻找核素能谱中的特征全能峰等核素的特征信息,然后将其与标准核素库中的核素信息进行匹配,从而达到识别核素种类的目的。但是由于实际测量环境中存在较多噪声污染、多种核素相互淹没与干扰,导致得到的核素能谱较为复杂,而传统的寻峰-匹配法无法满足对此类复杂能谱的识别要求,存在误差较大、鲁棒性较差和识别率
学位
相比于传统基于插值、重构及硬件设备等方法进行CT图像超分辨率重建,基于深度学习的方法能够获取纹理连续性好,感兴趣区域特征突出的重建图像,且算法的成本更低。因此本文以深度学习的图像超分辨率重建算法为基础,主要针对注意力机制,残差特征提取及图像的上、下采样技术进行分析和研究。具体内容如下:(1)提出了基于UNet特征融合的超分辨率CT图像重建(UNet SR)。首先,关于通道注意力(Channel a
学位
肺部疾病的患病人数逐年增多,改善肺部疾病的早期诊断和治疗,从CT图像中自动进行肺部分割是临床决策的一项关键任务。然而,由于肺的形状、大小不规则、对比度低和边界模糊,分割肺实质区域是一项非常具有挑战性的任务。现有方法中基于低级手工特征的方法易导致欠分割,基于CNN的浅层网络无法提取更具辨别力的特征。随着深度学习在图像处理领域取得了重要突破,将深度学习与计算机辅助诊断结合识别肺部图像成为了一个热门的研
学位
室内外空气污染已经成为现代社会普遍关注的问题。尽管在过去的几十年中,世界范围内颁布了许多关于空气质量的政策和法规,但空气污染仍然在对人类健康产生负面影响。挥发性有机化合物(Volatile Organic Compounds)是大气污染之一,它的治理问题引起了研究者的关注。二氧化钛(TiO2)半导体光催化材料具备高效无毒、稳定性好、经济环保等优势,因此使用TiO2作为光催化剂降解污染物是解决大气污
学位
图像语义分割是一项关键视觉技术,其目的是为图像中所有像素分配对应的语义标签。经过多年发展,图像语义分割已取得了不少成果,但由于分割任务的复杂性、以及深度学习的局限性等原因,仍有许多问题待解决。例如,无法很好保存边缘细节特征;在提取语义上下文和充分利用特征信息方面效果不佳,导致特征表达能力不足;网络参数量过大。因此,针对以上问题,本文对基于卷积神经网络的图像语义分割进行深入研究,并从解决皮肤镜图像病
学位
核事故发生时,由于核环境内部辐射剂量过大,人类无法进入现场进行后续操作,核应急作业机器人作为少数能进入核事故现场的机器,在解决事故时起到重要作用。部分核应急作业机器人上带有图像采集模块,采集到的图像数据是机器人对内部环境感知的重要依据。然而,核环境中的高能粒子会同图像采集模块中的半导体材料发生辐射效应,导致采集到的图像中含有大量核噪声亮斑。本论文针对灰度核噪声和彩色核噪声分别提出了对应的降噪算法,
学位