论文部分内容阅读
视频数据包含极为丰富的信息,诸如图像、音频、文本等多媒体信息,而这些信息与人们的日常生活、工作以及休闲、娱乐息息相关,越来越受到人们的关注和重视。然而,由于视频数据的剧增以及其内容和结构的复杂性,人们对视频数据的利用和管理也变得更加困难。为了使人们能够对视频数据进行有效的查询、组织和利用,近年来,视频检索技术,特别是基于语义的视频检索技术受到了研究者的高度重视,成为多媒体数据检索领域的一个研究热点。
本文在综合分析目前视频语义概念提取方法的基础上,提出基于ST-Simfusion算法和本体相结合的视频语义提取算法,并实现相应的原型系统。本文主要研究工作如下:
(1)针对目前视频语义检索中大多数算法在样本标注方面存在的不足(如主观性强、不规范、通用性差等),提出一种基于本体概念的样本标注方法,即采用本体概念进行样本标注,使训练得到的语义提取模型的普适性更好;针对视频文本特征的比较,提出一种基于本体概念的文本测度,即用本体中概念之间的距离(即相似度)作为文本特征之间比较的测度,以降低镜头相似度计算的复杂性。
(2)提出一种基于自适应阈值ST的聚类算法和Simfusion相结合的镜头相似度计算方法,即ST-Simfusion算法。该方法利用聚类算法提取镜头的关键帧,借鉴Simfusion算法的思想,计算镜头的相似度,使得本算法既能够保证镜头所表达信息的完整性,又能充分利用镜头多模态之间的关联共生特性,从而有利于提高语义概念提取的准确率。
(3)提出一种基于ST-Simfusion和本体的算法,用于语义提取模型SVM的训练。该方法首先利用ST-Simfusion算法对镜头进行聚类,得到镜头之间相似度矩阵;然后把该相似度矩阵用于LPP降维,得到高维空间中与镜头数据对应的坐标;最后把坐标和用本体概念标注的样本的信息作为SVM的输入,训练语义提取模型。
(4)语义概念提取原型系统的实现。采用面向对象思想,设计并实现了视频语义检索的原型系统。该系统主要有视频数据预处理、特征提取、镜头相似度计算、语义提取模型等功能模块。并用实验的方法,验证本文方法的有效性。