论文部分内容阅读
近年来,随着经济的迅猛发展,计算机技术和信号处理技术在研究和应用上有了质的飞跃,室内智能监控越来越受到人们的关注。智能监控系统摆脱了传统视频监控单一性功能的缺点,能够对监控场景进行实时的目标检测和跟踪,且大大节省了人力、物力和财力,因而在工业、交通、银行、安全等方面得到了广泛应用。然而,单一摄像头的监控能力和范围有限,增加摄像头的个数无疑大大增加了投入成本。因此本文提出了一种融合音频和视频的室内智能监控系统,在调研国内外相关论文的基础之上,在音频和视频两方面针对发生的异常情况进行检测,具体开展了以下的研究和开发工作:(1)在对异常声音特性和室内背景噪声模型分析的基础上,提出了对阵列采集信号的预处理方法,包括声音端点检测(Sound Endpoint Detection,SED)和背景噪声去除技术。实验表明,在信噪比低的环境下,SED无法达到理想的检测效果,但对去除噪声后的信号进行端点检测,其准确性会有较大幅度的提高。后续的实验证明,良好的预处理方法不仅有利于减少运算量,更有助于提高定位精度。(2)在基于麦克风阵列信号产生模型的基础上,归纳总结了一些常用的时延估计技术,并针对几种实时性较好的方法进行了深入研究。实验采用均方根误差(Root Mean Square,RMSE)εRMSE和异常比率(Abnormal Rate,AR)ηAR来描述估计值偏离真实值的离散度和异常度,实验结果表明:在不同的噪声和混响环境下,广义互相关(Generalized Cross Correlation, GCC)时延估计法定位精度较高且实时性好。当环境信噪比为5dB,混响时间为l00ms时,进行SED后的基于人耳听觉感知特性(Human Auditory Perception Properties, HAPP)时延估计法效果最为理想,其εRMSE和ηAR分别为0.5054和0.0385,达到了较为理想的时延估计精度。(3)根据声源与麦克风阵列的空间位置关系,介绍了几种常用近场定位技术的原理和推导过程。在时延估计的基础上,对大量不同方位和距离声源进行定位实验,结果表明:角度和距离定位的εRMSE和ηAR分别小于0.1和0.3,估计误差较小,算法从整体上满足室内环境定位的基本要求。(4)本文提出了一种音频与视频相融合的异常检测方法,该方法在一定程度上克服了单一视频监控的盲区,将声音信号与视频图像结合起来,对室内安全情况进行综合判断。在音频检测方面,详细阐述了高斯混合模型(Gaussian Mixture Model)的基本原理、参数估计和识别方法,并研究了不同的高斯混合阶数和特征参数对识别率和时间复杂度的影响。大量的实验结果表明,当高斯混合阶数为32时,基于MFCC_E和GMM的异常声音检测的平均识别率能达到85%以上,时间复杂度较低。在视频检测方面,对基于单高斯背景建模的运动目标检测原理进行了说明,且在室内环境下证明了该算法的有效性。(5)结合前几章所研究的算法,提出了一种融合音频和视频的室内智能监控系统,并在PC平台下利用Visual C++6.0进行开发。系统首先对麦克风阵列采集的信号进行预处理,定位出声源位置后实现球机的实时转向,最后采用异常检测技术对监控场景情况进行检测,从而判断是否报警。在真实的室内环境下对软件进行测试,结果表明该系统对异常情况的定位和检测均达到了较为理想的效果。