论文部分内容阅读
该文以MPEG压缩视频为研究对象,进行了视频分段和特征分析的研究工作,并根据分析结果提取关键帧,进行镜头聚集,从而实现直接对压缩视频的快速访问.我们首先通过分析MPEG压缩视频数据所具有的特征,提出了表示压缩视频的数据模型.在视频数据库管理系统中,数据模型是实现其它功能的基础.我们引入了八个定义,采用两个中间层次——镜头(shot)和场景(scene)表示视频数据.镜头被定义为由某个输入设备记录下的连续的、未被中断的最大帧序列.场景被定义为由一个或多个具有语义相关性的连续镜头组成的镜头集合.我们所定义的数据模型较好地反映了视频数据的时空特性,并支持视频解释和数据独立性.在进行视频分段时,通过检测镜头变换,将视频序列划分为以镜头为单位的视频片段,并利用定义的数据模型表示镜头.运动特征反映了镜头的动态内容,这是静态图像所不能提供的.当有运动时,需把镜头分成子镜头,并将子镜头定义成镜头中具有某些共同属性的连续帧的集合.为了突出文字,文字与背景有一个高的对比度,这样就使得文字区的色彩和纹理与背景区是不同的.宏块的AC系数反映了宏块的纹理特征.宏块的DC系数反映了宏块的色彩均值.我们还提出了利用I帧的DC系数,获取镜头色彩特征的方法.我们获取的色彩特征有两个,一个是主色值,另一个是指定色块.主色值在某种程度上能够反映镜头活动的背景场所类型.在压缩视频上直接识别出文字区和肤色区后,只需对相关的帧或区域进行解压,这样只花费最小的解压代价,就可以识别文字和人脸.由于人脸和文字信息更接近于镜头的语义内容,因此其特征对按内容访问更有意义.由于一段镜头所包含的内容很多,仅用文字描述内容是很不够的,需要选择一个关键帧来代表镜头的空间内容,于是关键帧便成为对镜头空间内容进行有效表示的手段,也是视频索引的一项主要内容.最后,在对视频数据库进行基于内容检索时,为了能够对用户的检索请求实时响应,我们根据视频检索现状,利用前面的数据模型、视频分段、特征分析和关键帧提取等相关算法,建立了一个基于压缩视频的快速浏览原型系统.