论文部分内容阅读
互联网上图像和短视频的规模日益庞大,快速有效的短视频自动分类算法能够帮助人们更加容易地找到感兴趣的视频内容。目前深度卷积网络模型是实现短视频的自动分类的有效方法,但是单模型的卷积网络存在泛化能力不强等不足。针对以上问题,本文研究了基于多模型融合的短视频分类方法,模型融合即通过不同组合策略将多个单一模型进行组合,最终输出预测结果。本文的主要工作如下:1.建立了短视频数据集。本数据集包含1200段不同行人的动作视频数据,共计6类:拳击(Boxing),鼓掌(Handclapping),挥手(Handwaving),慢跑(Jogging),跑步(Running)和步行(Walking)。每个类别包含了 200个视频样本,每个视频样本时长约15s,帧率为25fps,分辨率为128*128。按照5:3:2随机划分训练集、测试集和验证集。2.设计实现了用于短视频分类的3D卷积神经网络模型。该网络由输入层、三个卷积层、三个池化层、三个批量正则化(BN层)、两个全连接层及输出层组成,利用3D卷积核提取视频时间和空间信息。训练过程采用了数据增强、随机失活、自适应学习率等技术,所训练出的模型实现了 84.0%的平均分类正确率。3.研究设计了基于3D卷积网络的多模型融合短视频分类算法。①基于平均法(Averaging)的多模型融合算法。对多个模型预测结果进行平均输出,确定短视频类别。实验结果表明,该方法可实现85.1%的平均分类正确率;②基于投票法(Voting)的多模型融合算法。采用相对多数表决法,对模型分类结果进行投票,选取投票数最高的类别作为最后预测结果。实验结果表明,该方法可实现88.0%的平均分类正确率;③基于堆叠法(Stacking)的多模型融合算法。使用多个预训练模型提取短视频特征,将这些特征组成新的数据样本并训练SVM分类器,最终通过SVM分类器判断短视频类别。实验结果表明,该方法可实现89.4%的平均分类正确率。