论文部分内容阅读
随着监测系统智能化的快速发展,监测数据在交通、环境、安防等领域发挥着越来越重要的作用。音视频融合的研究可以利用视觉与听觉的互补效应来感知环境变化。此外数据量巨大的音视频数据,迫使人们寻找更加有效地分析方法,从而将人从重复的劳动中解脱出来。因此,音视频融合感知技术不仅具有重要的理论研究价值,在应用前景上也是大有可为。 本文研究当前音视频融合感知领域发展的现状,以传统视频监控平台为基础,设计了音视频融合感知的体系结构。立足于音视频内容分析,研究了基于音视频融合感知的暴力场景分析模型。本文主要贡献如下: 1.以音视频融合感知的监控平台为出发点,设计了基于音视频融合感知的现场监测的系统框架、处理流程以及硬件选型,搭建了一套应用于音视频监控系统平台。 2.在听觉数据采集中利用多线程循环队列缓冲池技术对采集过程进行了优化,设计了数据采集阶段声压级特征对视频监控的融合策略以及程序功能的模块化分组。测试结果表明,该系统经过优化后能够较好地应用于实际检测中。 3.结合传统数据融合领域中常用的方法,利用复杂环境下视音频特征对场景感知具有互补的特点,提出了基于分类器和规则的融合方法。将词袋模型、Fisher向量这两种中间级语义表达方式应用于音视频融合感知的暴力场景检测中,并对两者针对不同特征的检测效果进行了对比研究,实验显示Fisher向量的效果比词袋模型要有所提升,而融合检测效果比单一特征也有一定提升。