论文部分内容阅读
多媒体技术的快速发展产生了大量的视频数据,人们对视频信息的使用已越来越频繁,但由于视频的长度及其非常丰富的内容使得很难对视频进行高效的浏览和查找。因此,我们希望建立一个目录型的视频结构,将整个视频划分为若干层级,对一些关键的信息建立索引,使用户可以像浏览书本的目录结构一样浏览视频,快速选择所需要的内容。多媒体技术的发展也促使各高校逐渐加大使用视频的方式记录校园内发生的诸项事务,本文针对校园内拍摄的原始视频素材,提出一种基于情境和效用的视频结构目录生成方法,经过镜头边界检测、基于情境的镜头处理、关键帧提取、场景聚类、计算各场景的效用值,生成视频基本结构目录,并在此基础上进行视频结构语法的挖掘。本文的创新点如下:(1)提出基于情境的镜头处理。视频作为一种时基媒体,具有很大的不稳定性,摄像机移动和镜头动作并没有统一化的标准和规范,拍摄出的新闻素材不免有些“废镜头”。视频素材通常占很大空间,在处理时也用时较长,通过基于情境的镜头处理,分析镜头时长与关键帧之间的关系,能够有效去除这些“废镜头”,提高后续分析的效率。(2)提出通过构造效用函数,计算各场景的效用值来生成视频基本结构目录。通过镜头分割、基于情境的镜头处理、关键帧提取以及场景聚类得到的各场景,通过构建效用函数,计算各个场景的效用值,并通过设立合理的阈值,可以获取对于表达视频整体内容更有意义的场景来构建视频目录。在视频基本目录结构之上,利用多层次分析和多模式融合的方式来分析视频结构的语法和语义,将镜头场景中提取的多模式特征(图像、声音、文字)作为后续语义提取模型的输入,并将高层语义分解成一系列可识别的低层原型,及各低层原型和高层语义的约束关系,低层基本事物与低层特征可直接产生映射,以此来解决视频低层特征到视频高层语义之间的“语义鸿沟”。综上所述,论文主要工作集中在基于情境和效用的视频结构挖掘,建立了视频结构目录,从视频基本结构、结构语法和结构语义三个层次探讨视频挖掘方法与应用。这些成果具有一定的实践价值,对于校园内的视频数据挖掘产生积极的影响。