基于深度神经网络的异常声音事件检测

来源 :重庆大学 | 被引量 : 0次 | 上传用户:spirithero
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频监控技术是监控应用中最重要的组成部分之一,实现智能化音频监控的关键是从环境背景声音中自动地检测出异常声音事件。异常声音事件检测本质上是一个模式分类任务,检测方法通常包括两部分:首先,利用相关语音信号处理技术提取有鉴别力的手工特征;然后利用机器学习算法以这些手工特征为输入训练一个有效的分类器进行识别。在传统异常声音检测模型中,其输入特征的维度通常是固定不变的,而不同类别的异常声音持续时间差异又较大,一般的解决办法是利用不同长度的滑动窗口多次截取声音片段,然后把这些片段依次输入模型进行识别,导致整个检测过程较为费时且边界误差较大。随着计算能力的提升、大规模数据集的出现以及深度学习算法的发展,深度神经网络在模式分类任务中表现越来越优越。本文利用深度神经网络对异常声音事件检测展开了研究,主要工作总结如下:(1)提出了一种新的音频事件检测和分类方法。该方法是在一个基于区域的全卷积神经网络(Region-based Fully Convolutional Networks,R-FCN)框架上进行扩展所得。该方法以音频信号的对数灰度谱图(Log Grayscale Spectrogram)为输入特征,主要分为两个阶段:在第一阶段,在时间轴上利用滑动的卷积核来检测是否存在音频事件,通过区域提议网络(Region Proposal Networks,RPN)生成一些可能包含音频事件的候选区域,也可以理解为边界检测;在第二阶段,利用对时频信息敏感的池化手段,将时域和频域信息整合起来,对这些候选区域进行精细分类并微调其边界。该方法能够处理任意长度的音频信号,能直接输出音频事件的位置和类别,在IEEE DCASE Challenge 2017 Task 2竞赛中取得了不错的成绩。(2)构建了一个集边界检测和模式分类于一体的模型。针对(1)部分提出的方法在短音频事件检测中效果不理想情况,利用卷积和循环神经网络构建了一个一阶段检测模型:首先,基于卷积神经网络在LogMel二维手工特征上进行了特征提取,然后,利用循环神经网络对每帧信号提取的特征进行分类,从而完成异常声音事件检测建模。在该模型中,构建了适合于音频信号的信息提取单元:利用一维卷积分别在频域、时域维度上进行了特征提取,并对频域、时域维度上提取到的信息进行了融合。最后通过损失函数减轻了因较难识别音频帧带来的漏检和误检问题。
其他文献
据《宋史》等相关史料研究,宋代末茶的主流是水磨茶,即利用水力驱动磨盘磨出来的末茶,而茶臼、茶碾、茶磨等小玩意儿只不过是上流社会的茶道工具而已.宋代水磨茶曾一度被朝廷
完形填空的练习是英语教学中的重要环节。教师在这一环节中,如能做到精心设计、巩固理解,注重能力、逐步提高,分类指导,强化运用,能够有效地提高学生综合运用英语语言的能力
针对冲床人工上下料效率低、精度差、存在安全隐患等问题,设计了基于PLC控制的冲床上下料气动机械手,给出了机械手的总体结构及工作原理,并对其气动、控制系统进行了研究;设
员工是构成企业的基石,员工对企业的满意与否,直接影响到一个企业的运营,决定这个企业能否稳定持续的发展。河北民营经济在近年来取得了长足发展,与民营经济取得巨大发展形成
水土流失是我国重大的生态安全问题,既是自然问题,也是社会问题,加快水土流失治理进程,改善生态环境,有效保护和合理利用水土资源,是关系中华民族生存和发展的长远大计,也是
期刊
近年来,随着城市发展的不断加快以及城市规模的逐渐扩大,城市和农村的界线变得越来越模糊,已经难以划清。然而,我国长期以来城镇地籍和农村地籍分开管理的地籍管理模式严重影
英国实施的免费加助学金模式以及美国实施的混合资助模式,对我国大学生资助政策改革和制度建构的启示是多方面的,主要有以下几点:一要发挥政府主体和主导作用,加大财政投入力度;二
研究网络分析技术在水库群调度中的应用,把多目标分层排层网络分析模型拓展到多目标梯级水电站调度的网络分析中,提出梯级水电站群调度多目标网络分析型。结合某流域梯级水电站
文章基于内分流式液压机械双流传动系统(hydro-mechanical transmission,HMT)的基本特性,借鉴双离合变速器传动原理,提出了一种复合式液压机械双流传动系统(combined hydro-m
<正>选择在指数市盈率估值处在历史分位数低位的时候开始定投,并在该值达到相对高峰时结束定投,我们将获得非常可观,甚至超乎想象的收益。大家都知道,投资想要赚钱,靠的是低