论文部分内容阅读
面对网络中呈爆炸性增长的视频数据,如何从这些非结构化的数据中找到感兴趣的视频片段成为一种迫切的需求,由此而引发了基于内容视频检索(CBVR)技术的研究热潮。在CBVR中,检索的对象并不是视频对象本身,而是视频的“内容”描述数据。国际标准MPEG-7对视频内容的描述进行了规范化,为视频描述数据的传输与交换提供了便利。然而,由于视频数据的复杂性和多样性,视频描述数据中包含了多类文本语义信息和高维的低层特征信息,如何有效地组织和管理视频内容的描述数据以满足检索的需求成为CBVR重要的研究内容和挑战。在此背景下,提出一种通用的视频描述数据组织模型以及针对低层特征数据的索引方法。为了满足视频检索的要求,在MPEG-7标准的基础上,提出了一种通用的视频组织模型。该组织模型以视频、情节、场景和镜头形成的视频内容单元层次结构为基础,将视频描述数据分类管理,其中视频、情节只包含文本信息,而低层特征信息只出现在场景和镜头中。在视频组织模型的基础上,提出一种视频检索对象模型和通用的视频检索框架。视频检索对象模型以视频内容单元为检索对象,将其文本属性和低层特征属性分离,并在视频检索框架中对这两类数据分别建立索引,以满足基于关键字检索和基于样例检索的需要。在视频内容的生成与管理框架中,视频内容描述信息存储在视频描述数据库中,视频描述数据库采用支持XML的关系数据库。处理视频数据时,通过对相关MPEG-7文档的解析,将已经生成的视频描述信息存入视频描述数据库,其中适用于检索的描述信息,包括结构信息、特征信息和语义信息存储到相应的表中,其他的描述信息则以XML片段的方式存储。经过特征提取、视频内容分析等过程生成相关MPEG-7文档中不存在的且适用于检索的描述信息,并存储在数据库的表中。为了满足基于样例的视频检索中,对样例的特征以及对应的权值进行自定义的需求,提出了一种面向可变权值的多特征索引树MFI-Tree结构及其相应的ADD-kNN检索算法。MFI-Tree采用适应于浏览的树型结构,通过多特征相似度距离模型对描述视频内容的多个特征向量进行索引。索引结构的建立依赖于数据集合的分裂,MFI-Tree在分裂时通过距离阈值动态确定子集合的数目,并且采用虚拟对象使得子集覆盖半径最小化,从而获得重叠区域较小的多个子集。在检索时,直接遍历索引结构的最底层集合节点而不是通过树型结构遍历,避免高维度对检索效率的影响。ADD-kNN检索算法针对多特征检索的特点,在遍历时通过对确定需要计算的数据子集先进行相似度计算的方法,更早更快地降低用于过滤的判断值,从而提高检索的效率。实验结果表明,索引结构MFI-Tree和ADD-kNN检索算法是有效的。视频分析是视频检索的基础,原型系统AnyVideoStudio实现了多类低层特征提取和结构分析方法生成MPEG-7文档的过程。为了解决样例获取困难导致用户难于描述检索需求的问题,设计了一种基于图像样例的视频检索人机交互接口。在人机交互接口中,增加了图像处理模块,该模块可以加载本地或者数据库中的图像,然后通过图像剪切、拼接等操作形成样例图像进行检索。这种人机交互方式能够辅助用户更好地描述检索需求,提高检索效率。基于内容的视频检索需要研究的问题还很多。在视频内容的描述方面,现有的低层特征种类繁多而且大多维度较高,如何找到适合于视频检索的低层特征仍然是未来一个重要的研究方向。在视频结构分析方面,视频镜头检测技术相对成熟,但在场景聚类等涉及语义内容分析的部分,由于“语义鸿沟”的存在,目前只能结合领域知识,对特定的视频进行处理。在索引结构方面,目前的特征结构仍然不能满足视频搜索引擎对检索时间的要求,必须有效地降低特征的维度,进一步减少检索过程中距离计算和结果排序开销,提高检索的效率。此外,在视频检索的人机接口方面还需要更加方便有效的手段辅助用户描述检索需求。