论文部分内容阅读
音频监控技术是监控应用中最重要的组成部分之一,实现智能化音频监控的关键是从环境背景声音中自动地检测出异常声音事件。异常声音事件检测本质上是一个模式分类任务,检测方法通常包括两部分:首先,利用相关语音信号处理技术提取有鉴别力的手工特征;然后利用机器学习算法以这些手工特征为输入训练一个有效的分类器进行识别。在传统异常声音检测模型中,其输入特征的维度通常是固定不变的,而不同类别的异常声音持续时间差异又较大,一般的解决办法是利用不同长度的滑动窗口多次截取声音片段,然后把这些片段依次输入模型进行识别,导致整个检测过程较为费时且边界误差较大。随着计算能力的提升、大规模数据集的出现以及深度学习算法的发展,深度神经网络在模式分类任务中表现越来越优越。本文利用深度神经网络对异常声音事件检测展开了研究,主要工作总结如下:(1)提出了一种新的音频事件检测和分类方法。该方法是在一个基于区域的全卷积神经网络(Region-based Fully Convolutional Networks,R-FCN)框架上进行扩展所得。该方法以音频信号的对数灰度谱图(Log Grayscale Spectrogram)为输入特征,主要分为两个阶段:在第一阶段,在时间轴上利用滑动的卷积核来检测是否存在音频事件,通过区域提议网络(Region Proposal Networks,RPN)生成一些可能包含音频事件的候选区域,也可以理解为边界检测;在第二阶段,利用对时频信息敏感的池化手段,将时域和频域信息整合起来,对这些候选区域进行精细分类并微调其边界。该方法能够处理任意长度的音频信号,能直接输出音频事件的位置和类别,在IEEE DCASE Challenge 2017 Task 2竞赛中取得了不错的成绩。(2)构建了一个集边界检测和模式分类于一体的模型。针对(1)部分提出的方法在短音频事件检测中效果不理想情况,利用卷积和循环神经网络构建了一个一阶段检测模型:首先,基于卷积神经网络在LogMel二维手工特征上进行了特征提取,然后,利用循环神经网络对每帧信号提取的特征进行分类,从而完成异常声音事件检测建模。在该模型中,构建了适合于音频信号的信息提取单元:利用一维卷积分别在频域、时域维度上进行了特征提取,并对频域、时域维度上提取到的信息进行了融合。最后通过损失函数减轻了因较难识别音频帧带来的漏检和误检问题。