论文部分内容阅读
随着多媒体技术的迅速发展,多媒体数据正以指数级增加。因此,如何从海量的视频中快速高效的检索出所需要的视频变得十分重要。基于语义的视频检索应运而生,其中对视频镜头加以分类是基于语义视频检索的基础性工作,因而,研究快速有效的视频镜头分类方法至关重要,同时稀疏表示理论的发展,也为视频镜头分类提供了强有力的理论支持和方法支持。
本文首先简要地介绍了课题研究的背景及意义,然后分析了基于语义视频检索及稀疏表示涉及到的主要工作的国内外研究现状。在此基础上,本文提出了新的基于稀疏表示的分类规则,基于类内平均欧式距离最小化及类间平均欧式距离最大化的稀疏字典优化算法。具体内容如下:
(1)提出了新的基于稀疏表示的分类规则。在以往的基于稀疏表示的分类中,通常选取样本与各类原型之问欧式距离最小的那一类作为最终的分类结果。本文中,为了克服上诉分类规则中可能存在的一些偶然性因素,充分考虑了样本与各类原型之间的欧式距离,即综合考虑样本与字典中所有类别原型之间的欧式距离,以此减少了特征分类时的偶然性。将该优化的稀疏表示分类规则应用于视频镜头分类中,提高了视频镜头特征分类的准确性。
(2)提出了基于鉴别性的稀疏字典优化算法。稀疏表示字典的好坏影响着最终的分类结果,因此构造一个优秀的稀疏表示字典是非常必要的。本文中,对于初始化后的稀疏表示字典中的每一个基元,考虑字典内基元类内平均欧式距离以及类间平均欧式距离,使得字典中各类包含的基元其类内平均欧式距离最小而类间平局欧式距离最大,使得同类之间的相似性更大以及不同类之间的差异性更大,提高了稀疏字典的鉴别性。将该算法用于视频镜头的稀疏特征求解,实验结果表明了可有效提高视频镜头分类的准确性。
(3)设计实现了基于稀疏表示视频镜头分类原型系统。采用面向对象的设计方法,设计并实现基于新的稀疏表示分类规则和优化之后的稀疏字典的视频镜头分类原型系统,并从实验角度验证上述方法的有效性。