论文部分内容阅读
随着视频压缩技术和网络传输技术的发展,视频由于具有直观、信息量大等优点,成为了人们获取信息的主流方式。如何对视频数据进行有效的组织和管理以便于人们能够方便快捷地找到所需要的信息是一个值得研究的课题。视频检索的目的就是要从大量的视频数据中找到所需要的视频片断。传统的基于关键词的检索方法,关键词一般采用人工方式进行编写,不仅效率低下而且由于带有很大的主观性,往往提供给用户的信息并不是用户需要的信息。为了能够从大量的视频数据中快速自动准确地找到所需的视频片断,需要实现基于内容的视频检索。镜头是视频的基本单元。基于内容的视频检索过程包括三个步骤:第一步,镜头分割,即不同镜头之间转换边界的检测,第二步,代表帧提取,即每个镜头选取一帧或几帧能表达镜头主要内容的代表帧,这些代表帧可以用于视频内容的快速浏览和作为视频检索的索引,第三步,内容相近的多个镜头进行聚类组成更高层次的场景单元。镜头检测作为视频分析重要的第一步,直接影响到视频检索的成败。近年来人们已经对镜头检测做了大量的研究,但由于视频的特性,镜头检测中还有很多问题没能很好的解决,例如如何确定精确的镜头转换帧,如何检测变化不明显的渐变,如何自动地选取合适的自适应阈值都还没有一个通用有效的方法。因此本文将镜头检测作为研究的重点。本文研究的重点是将信息熵的知识运用到视频镜头检测中去。第四章讨论了帧间熵差法在视频镜头检测中的应用,结合高斯模型和滑动窗口法确定自适应阈值,并使用最大熵分割法确定的分段全局最佳阈值消除滑动窗口法中由于局部极大值造成的误检。利用间隔帧间熵差法结合前面确定的自适应阈值检测渐变。第五章讨论了互信息量在镜头检测中的应用,由于同一个镜头内的互信息量的取值范围变化很大,因此不能直接利用常规的自适应阈值确定方法,本文提出了结合均值和高斯模型的突变自适应阈值确定方法。对于渐变使用间隔帧间互信息量进行检测。在用镜头检测算法将视频分割成镜头后,需要从镜头中提取出关键帧作为视频的索引依据。本文第六章对熵差和互信息量在视频关键帧提取中的应用做了一些尝试。