论文部分内容阅读
镜头边界检测是视频语义分析和编辑任务的重要预处理步骤,旨在检测出视频中镜头的切变和渐变,实现对镜头的自动分割;如何高效且准确地识别出视频中的镜头边界仍然是一项挑战。目前大多数镜头边界检测方法基于精心设计的手工特征,检测效果严重依赖于经验确定的参数,可扩展性不强。这些方法往往通过设计更复杂的特征、相似度度量方法或者分类方法以提高检测准确度,计算代价大且实现复杂。针对以上问题,构建了一个基于深度卷积神经网络的镜头边界检测模型。整个模型分为三个阶段。第一阶段初步定位出视频中可能发生镜头切换的位置,使用卷积神经网络的高层输出作为视频帧的特征表示,计算相邻帧之间的差异度,快速排除大部分非镜头边界帧。针对渐变长度多变的特性,采用多个时间尺度对视频进行下采样,然后合并不同尺度下获得的候选边界帧。第二阶段利用三维卷积神经网络识别出候选边界帧中的切变,并基于检测网络输出的渐变概率初步定位出视频中可能发生渐变的位置。第三阶段进一步定位出渐变的时间边界,利用卷积神经网络判断每一帧属于渐变开始、中间和结束三种状态的概率,然后通过定位这三种概率信号的强峰值,确定出渐变过程的起止时间。使用公共数据集ClipShots对模型进行训练并测试。实验结果表明检测模型对切变和渐变都具有不错的检测效果;渐变检测性能略差一些,且存在大量重复计算。如何提高渐变检测性能并减少计算量,还有待于进一步研究。