论文部分内容阅读
随着通信技术、宽带网络技术、音视频压缩技术以及计算机技术的发展,数字视频越来越广泛地融入于人们的生活空间中。由于视频数据自身内容的丰富性和多样性、结构的复杂性以及具有时空多维结构性,传统的数据管理与检索方案不能够很好地从巨大的视频数据源中找到所需要的信息。如何有效地对这些视频数据进行组织、表达、存储和管理,以及如何对其进行快速检索与浏览等已成为视频领域内急待解决的重大课题。
在这种研究背景下,本文分析了现有的视频镜头检索方法存在的问题和不足,并在此基础上对镜头表达、镜头聚类、镜头索引以及查询处理方面做了深入的研究。其主要工作和主要贡献有:
(1)提出了一种基于Haar小波变换的镜头表达方法。通过理论分析,证明了在当今被广泛使用的、用于表达镜头的高维特征向量空间与Haar小波系数空间进行空间转换的过程中,不同镜头之间的相互关系保持不变。利用Haar小波系数来表达镜头,还能在对镜头的查询处理中正确、有效的过滤查询空间。除此之外,通过实验发现,该表达方法只需要利用少量的小波系数就可以很好地表达出镜头所包含的高维特征。
(2)提出了一种基于多分辨率分析的多级层次聚类算法MLHC。在把镜头的高维特征用Haar小波系数加以表达之后,算法利用多分辨率分析理论实现了逐步求准聚类结果的目的。算法的每一步求准聚类结果的过程都是一次独立的层次聚类过程,并且这个过程利用了一种设计巧妙的停止准则来使算法的循环过程结束。该算法在解决了以往镜头聚类算法中存在的聚类中心选取问题以及需要给出相关领域经验参数的问题的同时,还能够自动对聚类个数进行估计。
(3)在基于Haar小波变换的镜头表达方法的基础上,利用R树这种索引结构,实现了对镜头快速有效的查询处理。该查询处理过程充分利用了多分辨率分析理论,有效地过滤了查询空间、减少了查询代价,提高了查询速度。