论文部分内容阅读
随着计算机技术、视频压缩技术和互联网技术的迅猛发展,人们可访问的信息资源空前丰富。视频资料因其具有直观性、信息综合性的特点,在数据库中的地位日渐增强,其数量增长更是惊人。但同时,由于视频结构的复杂性、数据内容的多样性以及时空多维性的特点,致使如何有效地组织视频数据、快速地检索和浏览用户需求的视频信息等成为视频领域内亟待解决的重大课题。在这种背景之下,基于内容的视频检索技术应运而生,它综合了图像处理、人工智能、模式识别及计算机视觉等领域的相关理论知识,并对视频特征和视频对象进行深入分析和研究,旨在获得蕴含在视频中的高层语义信息,建立可用的视频检索体系。因此,对视频语义的分析和检索技术的研究具有广阔的前景和现实意义。本文以影视类视频、球拍类体育视频和新闻类视频为研究对象,融合了视频中的视觉、音频等多模态信息,对各种视频进行了有针对性的语义分析和检索方法研究。影视类视频语义分析从情感角度展开,分析了此类视频的视觉低层情感特征与音频的情感特征,基于未确知测度模型对影视类视频场景的情感类型进行了检测和识别。通过分析球拍类体育视频的视觉、音频特征,对视频中的感兴趣事件进行语义识别和检索研究。基于条件随机场模型,比较系统的研究了新闻类视频故事场景的检测和分割方法。主要工作如下:(1)通过分析影视类视频的低层视觉情感特征和音频情感特征,基于未确知测度理论,提出了一种视频情感内容识别的新算法。该方法先分析了影视类视频的场景亮度、镜头切变率、色调效能三个视觉类情感特征和多种音频情感特征,介绍了每种视频情感特征的数据提取方法,并分别构建了影视类视频场景的视觉情感特征向量和音频情感特征向量。其次,定义了视频情感识别的对象空间和指标空间,构造了各视听情感特征的未确知测度函数和未确知测度矩阵。最后,采用信息熵确定情感特征向量中各分量的权位,用置信度识别准则对视频场景的情感类型进行识别和判定。实验结果表明所捉算法是有效的、可行的。(2)提出一种融合视觉、音频特征信息的球拍类体育视频精彩片段检索的算法。首先,基于支持向量机(Support Vector Machine, SVM)视频镜头分类与帧图像边缘特征的方法,将视频流中的镜头分为比赛镜头(Court View Shot)和非比赛镜头(Non-Court View Shot)两类;然后,分析了球拍类体育视频中声音和感兴趣事件之间的内在联系,构建了一个基于击球声和掌声的SVM分类器模型;最后,将镜头分类与声音事件分类进行融合,并建立了视频中精彩片段的提取规则,并对检索结果进行了排序处理。(3)提出了一种基于条件随机场模型的新闻故事识别和检索方法。该方法首先对新闻视频的音频内容和结构特征进行分析,应用规则分类和隐马尔可夫模型(Hidden Markov Model, HMM)分类相结合的方法将新闻视频中的音频数据进行分层、细化处理,并按照语义将其分类为男主播语音、女主播语音、交替播报、现场声音、介分音乐和有效静音六种。接着,通过分析新闻视频中镜头的特点,将新闻类视频按照语义分为主播镜头、静态画面镜头、现场访录镜头、广告镜头和其它类镜头五种,辅以音频语义信息对视频中的镜头进行了识别和分类。在完成新闻类视频音频语义分类和镜头语义识别的基础之上,通过相应的关键词序列的转换,构建了新闻故事场景的条件随机场(Conditional Random Fields, CRFs)分割提取模型,对新闻类视频进行了较为成功的语义识别和检索。(4)设计并初步实现了一个基于内容的视频语义识别和检索的实验平台,验证了上述所提算法的性能。