论文部分内容阅读
暴力镜头检测是多媒体视频领域一项极其重要的任务,具有较高的研究价值和现实意义。目前多媒体视频的数量与日俱增,这给暴力镜头检测的速度带来了更高的要求。而且暴力镜头涉及的语义类型众多,包括打斗、尖叫、爆炸等,这也给暴力镜头检测任务带来了极大的挑战。当下绝大多数研究只涉及到某一种暴力类型,检测的种类相对单一,而且准确率较低,因而亟需面向多种语义类型的暴力镜头快速检测技术。首先,本文基于暴力的出现一般以镜头为最基本单位的原则,对多媒体视频进行了镜头分割,然后对单个镜头进行暴力识别。视频序列的镜头分割是视频检索中的关键技术之一。针对传统镜头分割方法在单一场景下分割效果差、对于渐变镜头检测准确率低等问题,本文出了一种基于视觉认知机理的视频镜头分割方法。该方法利用分块颜色直方图强化视觉显著区域,突出前后帧之间的差异特征,进一步高在单一场景下检测镜头切换的准确率。此外,基于人类对于视频图像亮度的视觉感知规律,利用滑动窗内相邻多帧之间的差异来捕捉镜头渐变时亮度的变化规律。与传统方法相比,本文所出的算法取得了较好的分割效果,具有较高的查准率和查全率。其次,本文分别从视觉通道、听觉通道、视听双通道对于单个镜头的暴力成分进行了深入分析。在视觉通道上,本文比较了视频行为分析领域效果最好的密集轨迹特征方法和目前业界使用较广泛的深度学习方法。在深度学习方法中,本文将相邻两帧图像的帧间差分图作为卷积神经网络(Convolutional Neural Network,CNN)的输入,之后将CNN学习到的每个帧间差分图的特征送入长短时记忆(Long Short-Term Memory,LSTM)网络中,对时序信号进行建模。本文在LSTM结构中,使用卷积操作进行了改进,改进后的ConvLSTM网络取到了更高层的空间特征。在听觉通道上,本文针对目前暴力音频数据集稀缺问题,基于MediaEval电影数据构建了一个VioAudio数据集,然后比较了传统的声学特征方法和分别用原始音频波形图和音频语谱图作为网络输入的深度学习方法。最后,本文基于视觉通道和听觉通道上结果最好的深度学习模型进行了融合实验。我们将视频中相邻图像帧的帧间差分图及其对应的音频波形图分别送入两个CNN网络中进行特征的取,之后对特征进行融合送入LSTM网络中,利用长短时记忆网络对时序信息进行建模与分类。实验表明了该音视频融合方法的有效性。本文的研究工作为目前的镜头分割任务和多媒体视频中暴力镜头检测供了有效的解决方案,在多个数据集上的实验表明,本文出的方法具有一定的可行性和现实意义。同时音视频融合方案也为目前多模态信息融合供了新的思路和方向。