论文部分内容阅读
随着电子技术、网络技术和多媒体技术的发展,以及视频应用的日益普及,人们面对的视频信息量急剧增长,用户对视频信息的需求也不断提高,因此视频信息的分析、处理、组织、索引和检索等内容的研究具有很强的现实性和紧迫性。数字视频信息的组织与索引是视频信息检索和消费的基础。从研究现状来看,近年来主要是来自电子工程、计算机科学等学科的一些学者从技术角度对此做了大量的研究,包括镜头检测、关键帧提取、视听特征提取、图像理解和相似性度量等等,而从图书情报学角度来研究数字视频信息的组织、索引和检索的并不多。本文主要是从图书情报学视野来研究数字视频信息的组织与索引问题,包括数字视频信息的压缩编码、结构化分析与处理、元数据标准以及索引与检索等。 首先,本文在讨论视频信息的数字化、数字视频信息的特点、压缩编码标准和存档管理现状等内容的基础上,分析了目前视频信息压缩编码和存档管理中存在的问题,并提出了一些解决问题的想法。同时,在此基础上分析和归纳了视频应用的用户需求,以及数字视频信息组织与索引的主要研究内容。数字化是实现视频信息长效保存以及处理和操纵的重要基础,压缩编码是解决视频信息存储与传输的根本办法,而视频信息的组织与索引是实现有效且高效的检索与消费的重要保证。从数字视频信息的用户来看,可以粗分为消费型、研究型、创作型和应用型四种类型,他们对视频应用有着不同的需求,通过用户的需求分析可以为视频信息的分析、处理、组织、索引和检索确立出发点和目标。视频信息组织与索引的主要研究内容包括视频信息的数据化、压缩编码、结构化分析、数据模型、标注与索引,以及视频元数据标准等诸多内容。 本文考察和分析了视频结构化分析处理的主要内容,包括镜头检测、关键帧提取、场景分割、故事单元构建和视频摘要等。视频信息的结构化分析处理是一切基于内容的视频应用的基础和前提,它为视频信息组织与索引提供了基本对象。但受目前图像理解等人工智能技术的限制,以及视频信息编码、编辑和存档格式的限制,视频信息无明显的结构化信息,需要通过一定的方法和技术手段对其进行分析处理。相对来说,对于视频信息所蕴含的层次结构模型已有一致的共识。其中,镜头检测、场景检测和关键帧提取技术也已日见成熟,本文对此进行了全面的考察和分析,难点在于与人的主观认识有关的语义层次的故事单元构建和视频摘要生成。镜头检测和视频摘要在视频信息的浏览和检索中起着重要的作用,本文对此进行了重点研究。 分析和比较了现有的一些与视频相关或通过扩展可以借用的元数据标准,包括电视行业元数据标准(如DVB-SI、SMPTE、TV-Anytime、EBU Project P/Meta等)、软硬件开发商制定的元数据标准(如Apple公司的QuickTime、Microsoft公司的Windows Media等)、DublinCore元数据集和MPEG-7标准,在此基础上提出视频元数据框架应该是一个多维的结构,应从元数据功能、视频节目类型和面向的应用领域等角度来研究元数据标准和应用模型,并给出了一种通用视频元数据框架。元数据标准是信息资源描述的标准,也是实现信息资源共享与互操作性的基础。视频信息因其节目类型的多样性、应用的广泛性,以及在存储、传输和播放等过程中管理的复杂性,其元数据标准也具有多元性。目前,面向不同的应用或从不同的角度提出和制定了一些视频元数据相关标准,但这些元数据标准大多是面向专业人员或特定应用的。为了实现资源共享和提高互操作性,视频元数据标准和规范需要一个统一的多维的框架或模型,且这种框架或模型应以MPEG-7标准为核心,或与MPEG-7相适应。 本文从视频内容模型出发,从视频索引信息内容的分类角度提出了一种视频索引框架,并系统地对各种索引信息的生成方式和索引信息的编码表示方法进行了研究。视频索引包括基于外部信息(主要是编目信息)的索引和基于内容的索引。其中,基于内容的视频索引(特别是自动提取语义信息)是视频索引研究的难点和热点,也是实现基于内容的视频检索的关键。本文讨论了通过基于特定领域知识的语义模型和视频本体论研究实现视频高层语义索引的方法。 分析了数字视频信息应用所面临的挑战(如异构网络环境、设备能力、数字化版权等问题),考察了处于发展之中的MPEG-21标准,并在此基础上提出了一种基于MPEG系列标准的视频信息组织与检索系统框架。视频信息的组织应该建立在MPEG系列标准上,特别是充分应用MPEG-7与MPEG-21标准。虽然从其名称上看,MPEG-7和MPEG-21是针对多媒体信息描述与组织框架的标准,但其主要内容是针对视频信息的。 视频信息检索有多种不同的类型,但基于文本(关键字)的视频检索和视频浏览仍然是最实用、也是应用最广泛的检索手段。本文系统地讨论了各种视频检索手段和视频搜索引擎,并结合实例进行了分析。