论文部分内容阅读
随着信息技术迅猛发展,视频数据呈现爆炸式增长,如何从浩如烟海的视频中检索出需要的视频成为人们关注的焦点。现有的视频检索系统多是基于文本的检索方式和基于内容的检索方式,前者是采用人工的方法来标注视频,但是随着视频数据量的增大,工作量巨大,不切实际。后者主要将图像处理技术与计算机视觉处理相结合,用图像帧的底层特征来比较视频片段之间的相似性,这种检索方式与人们思维中习惯用高层语义概念相去甚远,严重影响视频检索的实际效果。因此,如何跨越底层特征和高层语义的鸿沟,实现基于语义的视频检索是今天视频检索中面临的最大挑战。在面向语义内容的视频检索中,概念检测是最为关键性的技术,它能自动检测视频中包含的基本语义概念,如天空、日出、沙滩等。通过建立各种语义概念检测模型来实现基于语义概念的视频检索。本文提出采用一种基于D-S证据理论后融合的概念检测算法,主要内容如下:底层视频特征方面,本文对关键帧图像提取了颜色、纹理、形状三种特征,对每种视觉特征训练支持向量机作为分类器,考虑到输入的特征和SVM参数对分类精度的影响,本文利用遗传算法实现三种特征选择和支持向量机分类器参数的同步优化。实验结果表明,经优化后,获得了优化的特征向量和分类器最优参数,提高了单个分类器的性能和准确率。在融合算法方面,本文提出了一种基于D-S证据理论后融合的概念检测算法,利用D-S证据理论组合不确定信息的优势,分别以颜色、纹理、形状三种特征的SVM分类结果作为独立证据,引入SVM的后验概率来构造基本概率分配函数,运用D-S证据组合规则进行证据融合,根据决策规则输出分类置信度。将提出的基于D-S后融合的算法与极大值方法、平均值方法、线性加权方法三种最常用的后融合算法进行实验比较和分析,结果表明,本文提出的该算法在概念检测准确率上要优于其它三种。最后,在关键帧语义概念检测的基础上,实现了以镜头为基本单元的检索系统,采用查询语义概念的方法,按照相关镜头置信度的大小从高到低排列,返回属于指定语义概念的视频镜头。