论文部分内容阅读
公共场所的安全防护对于社会的安定和谐,人民的生命财产安全意义重大。目前,视频监控系统已成为获取异常事件发生的各类信息的主要手段。基于音频监控的公共场所异常声音识别作为视频监控的辅助和补充,可以有效揭示异常事件的发生。因此,对于公共场所异常声音特征提取及识别的研究有重大的实用价值和学术意义。目前对异常声音特征提取大多沿用传统的语音信号处理方法如梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficient, MFCC)、线性预测倒谱系数(Linear Prediction Cepstrum Coefficient, LPCC)等。由于公共场所异常声音包括语音信号如尖叫声和非语音信号如爆炸声、枪声及玻璃破碎声等。另外,公共场所还存在汽车鸣笛声、谈话声、脚步声以及低频大气噪声的干扰等。为此,传统的基于语音处理的特征提取方法存在明显的不足。针对上述问题,通过对公共场所异常声音声谱图等特性的分析,本文提出首先将公共场所异常声音信号转换为异常声音的声谱图,采用2D-Gabor滤波器对声谱图时频特征进行特征描述;然后采用随机非负独立成分分析(Stochastic Non-negative Independent Component Analysis,SNICA)提取异常声音的声谱图特征,最后采用稀疏表示分类(Sparse RepresentationClassification, SRC)方法进行分类识别。本文主要开展的工作如下:①对公共场所异常声音的预处理。1)由于公共场所背景噪声的特性表现为能量散布均匀,短时能量较为平稳;而异常声音信号表现为冲激信号,短时能量集中,在背景噪声中突出。为此,本文采用短时能量双门限阈值方法从公共场所背景噪声中提取异常声音的有效片段。2)因为公共场所背景噪声符合S S分布(Symmetry Alpha-Stable, S S),本文采用最小平均p范数方法(Least Mean P-norm,LMP)去除公共场所背景噪声。通过与小波阈值去噪方法进行比较,验证了本文所用方法的有效性。②通过对公共场所异常声音的形成原理、基音频率和声谱图等三种特性的分析。本文认为:异常声音声谱图的时频结构在朝向和细微程度上有显著不同,可以揭示异常声音信号的本质,同时又具备很好的鉴别性。而公共场所背景噪声的声谱图则没有明显的时频结构,分布均匀。为此,根据异常声音声谱图可以提取到对异常声音分类识别有效的特征,避免公共场所背景噪声的影响。基于上述理由,本文将公共场所异常声音信号转换为声谱图,并且为了更好地挖掘声谱图中时频结构特征量信息,采用2D-Gabor滤波器对异常声音声谱图的时频结构进行描述,以利于后续对异常声音声谱图的特征提取及识别研究。③根据异常声音声谱图具有类内相似,类间不同的特点,本文建立了基于公共场所异常声音声谱图的全局稀疏表示模型,并由该模型研究一种用于公共场所异常声音特征提取及识别的方法。该方法在异常声音声谱图的2D-Gabor时频结构描述基础上,采用SNICA提取异常声音声谱图中的稀疏特征基,该特征基可以较好地反映出声谱图的高阶非负特征,同时有效克服声谱图的谱间重叠效应。然后通过基于l1范数最小化的稀疏表示分类方法得到待识别信号在字典中的稀疏表示,从而进行分类识别。通过与传统方法的比较实验,验证了本文所用方法的有效性。