论文部分内容阅读
信息技术的发展,使网络流量呈现视频化趋势,视频内容混杂化使得某些特殊视频充斥其中,影响了社会公共安全。然而,作为过滤主要手段的内容识别算法面临着十分严峻的挑战,传统的基于特征提取和分类器组合的方法在面对海量复杂视频数据时呈现出视频内容难以有效表征、识别准确率不高效率低下等问题,其根本原因是特征检测不能有效地表达视频内容的本质信息,需要构建新的能够更有效表征视频内容本质特征的核心算法。本文在查阅了大量资料基础上,从图像分类技术、基于传统手工特征的特殊内容检测技术,基于深度学习的特殊内容分析检测技术三个方面进行了深入研究,提出了新的算法和模型。取得的成果总结如下:1.现有的基于内容的图像分类算法,大多需要耗费大量训练和测试时间,且分类准确率难以提高。针对此现状设计了一种新的Sc SPM特征表征算法,用稀疏表示代替原有的矢量量化,用平均池化代替最大池化,这种基于SIFT稀疏编码的线性SPM核有效降低了特征的复杂性,同时也提高了分类算法的准确率。对于分类器,由于超限学习机优化作用机理不同于梯度下降算法,从而有效避免了陷入局部最优以及优化迭代耗时长等问题。2.现有的视频特征描述算子在视频内容表达方面表现不足。为了提高特殊视频内容识别精度,根据视频序列的逻辑结构特征,提出了一种新颖的基于三维梯度方向直方图特征构造方法,视觉单词的词袋模型(Bo W)和池化技术。该方法与核极限学习机(KELM)相结合,可用于暴力场景的检测。首先对视频块提取3D-HOG特征,然后实现K-Means聚类算法生成可视化单词,再利用视觉词包框架对特征进行量化,最后利用特征池化技术生成整个视频段的特征向量。分别使用训练数据和测试数据的特征向量对模型进行训练,并对该方法的性能进行评估,实验结果表明,提出的特征描述符具有良好的表示能力和泛化能力。该方法对暴力场景的检测是有效的,其精度与Hockey数据集上的最佳结果相匹配,在Movies数据集上的性能优于最先进的方法。3.针对传统的暴力视频场景检测算法需要解决特征融合的问题,提出了一种新的基于多示列学习的暴力视频场景检测算法:首先从视频片段中提取3D-HOG特征,然后使用K-means聚类算法对特征进行聚类,聚类中心构成视觉词典,多示例学习问题中的示例特征由词频向量构成。针对求解过程中正负示例地位不对称和示例标签存在噪音等问题,提出了一种示例数据清洗方法,通过使用Citation-k NN、轴平行矩形和mi-SVM三种多示例学习方法在基准测试数据库Hockey和Movies上进行对比测试,实验结果表明新的多示例学习检测算法结合数据清洗方法能够有效提高算法识别准确率和效率,从而验证了算法的有效性。4.在基于深度学习的特殊视频内容分析检测算法方面,因传统方法将视频帧平等对待,从而使得大量非“相关和重要”信息参与计算,干扰了最终的检测结果,同时也影响了计算效率,故如何抽取视频的关键信息成为值得研究的内容。本文提出了利用灰度质心进行视频关键帧提取的方法,并基于关键帧设计了深度学习算法结构中输入图像帧的选择方法。当关键帧间的帧图像数量较少时,将多个关键帧进行合并,当关键帧间的帧图像数量很多时,通过随机采样的方式进行帧数量的选取,从而能够有效保证视频重要内容的完整性。通过在基准数据集上进行测试,得到较高的检测准确率,说明了改进算法的有效性。该研究是属于模式识别、图像和视频处理以及信息安全等领域的交叉学科,研究成果解决了“特殊视频内容分析检测”过程中存在的一些关键问题,对现有的图像分类,视频检测技术提出了改进的方法,对多媒体内容安全,净化网络环境起到了积极地推动作用。本文共7章,含图57幅,表12个,参考文献98篇。