故事视频的语义分析与提取

被引量 : 13次 | 上传用户:leux
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技的发展使得数字视频潮水般涌入人们的日常生活。视频内容的丰富性和多样性、以及特征数据特有的时空高维结构,使得如何有效地对海量视频进行表达、存储和管理,以便人们快速地浏览和检索,成为一个亟待解决的重大课题。传统的数据管理与检索技术已远不能适应这种急速的变化和需求,因此基于内容的视频检索(CBVR)应运而生,相关的研究迅速在各国展开。目前,CBVR在多个方面取得了长足的进步,视频中语义信息的提取成为研究的热点,少数基于语义检索的原型系统也已出现。然而,由于语义对象的提取、语义的分析和理解等仍存在较大问题,大规模的应用还没实现。本文针对语义提取这个热点和难点从感知和认知的视角,结合电影理论和社会学等跨领域内容进行了较系统和循序渐进的研究,提出了一些新的框架和算法,主要内容如下:在视觉内容的表达方面,针对颜色、纹理等静态特征只能表示图像的内部特性,不能刻画序列图像的时间关系的问题,提出了一个压缩域全局运动特征的估计方法,并描述了视频内容在时域上的变化以及上下文关系。首先通过简化一个六参数运动模型估计出全局运动参数;随后提出基于滑动窗的视频运动分割算法,完成视频的全局运动分割和关键词注释,并运用特征点序列对运动信息进行了描述;最后,为了验证所提取运动特征的有效性,提出一个基于全局运动的视频检索框架。试验结果表明,该算法能准确地对视频进行全局运动分割,视频的全局运动检索也能获得较高的准确率,还实现了基于Xquery的关键词查询。镜头边界检测(SBD)是CBVR的基础,处于视频结构分析的底层,它的性能将直接影响其它视频分析的结果。为此提出了一个基于多层次特征描述和SVM的SBD算法。影响SBD性能的因素较多,本文将其总结为视觉内容的表达不够理想、序列图像的上下文联系不够紧密和分类器性能有待提高三方面,并提出了相应的解决办法:针对第一点,提出应该兼顾特征的敏感性和不变性,因此采用了从像素到全局的多层次特征描述方法;对第二点,运用一个变长滑动窗来建立特征矢量间的上下文联系;针对第三点,采用SVM分类器,通过主动学习和交叉验证分别来选择正负样本的比例和训练参数。此外,还提出边缘、运动等独立的检测子来对SVM分类结果中的误检加以修正。从TRECVID 2007的测评来看,我们的算法在15个参赛组中取得了较为满意的结果。在语义对象的提取方面,提出了一个基于视觉注意模型的语义对象的选择性提取算法。基于对象的语义提取是视频分析中的一个难点,对象的有效提取能够明显提高语义概念检测的准确性。对象的提取面临颜色的量化、图像的分割、语义对象的确定等诸多困难。针对这些问题,本文首先提出一个颜色的矢量量化算法完成彩色图像的量化;其次综合考虑图像的颜色和空间分布特性,提出一种基于图模型和区域组合的方法来分割图像;随后建立一个视觉注意模型来确定图像的视觉注意中心和转移顺序;接着在Gestalt准则下融合颜色、纹理以及边界特征来描述图像的同质特性;最后根据注意中心的转移顺序来提取图像的多个视觉显著对象。实验表明,在Corel图像库和TREC等视频上提取的显著对象获得了较高的主观评价。在视频摘要方面,提出了一个基于电影结构模型和感知线索的分层视频摘要产生框架,以及一套完整的模型算法。现有的视频摘要算法主要针对新闻、体育等非故事性结构而且时长较短的视频类型,不适用于全长度的电影。为此,首先提出一个故事结构模型—NP模型,将电影分解成幕、情节和场景三个层次,同时给出了场景的分割与分类算法;随后,构造一个基于情感刺激量的场景“重要性”函数来计算每个场景、情节、幕的重要性,以此来分配提取的关键帧和缩略的数目和长度;此外建立一个注意力模型来将重要的电影元素量化并融合成一条注意力曲线;最后将电影结构模型、情感模型和注意力模型有机地融合起来,提出了一个多层次的视频摘要框架,分别产生静态关键帧和动态视频缩略。七部好莱坞影片验证了框架的有效性和通用性,实验结果在信息量和愉悦度上都优于代表性的Ma提出的算法。在视频语义的提取方面,提出了一个基于社会网络分析(SNA)和电影本体(Ontology)的影片内容理解框架和一套语义提取算法。目前语义的研究主要集中在新闻、体育、医学等场景较为简单的视频类型,电影的自动理解则缺乏系统的研究。电影远比新闻等复杂,传统的语义分析方法难以缩小影片的语义鸿沟。本文从一个全新的视角提出通过SNA和建立电影本体来分析影片的故事内容。将电影看成一个特殊的社会网络,利用SNA来确定角色的社区结构和角色间的关系,并结合电影结构模型分析出故事的发展线索;其次,构造了一个电影本体,根据本体建立起角色的身份、职业以及政府各机构之间的联系;第三,提出一个分层的基于时间线索的高层动作事件检测方法,以及一个基于语义图的对话事件的摘要算法完成影片的语义分析。两部好莱坞电影验证了提出框架的可行性,其结果基本上满足语义视频检索的需求。
其他文献
概括总结了 DSP芯片的基本特点 ,概括介绍了它的应用。DSP技术是一门很专业的高技术 ,用途极为广泛 ,已经渗透到了社会的方方面面 ,它是与 DSP芯片性能的迅速提高密不可分的
随着振兴东北老工业基地的大力实施,东北老工业基地得到了快速发展。而西部老工业基地也有着自身独特的特点,深入研究西部老工业基地的产业结构特点,并就存在的问题提出对策,对于
隐私权是人格尊严的防线,它体现了人们对私生活的渴望,是人最基本的权利。加强隐私权的立法和司法保护,已成为大多数国家的共识。而迄今为止,我国没有把隐私权作为一种独立的
基于拉格朗日法,通过数值求解覆冰过程中复合绝缘子外部连续气流场和水滴运动轨迹,提出一种以区域分割方式数值计算绝缘子表面水滴碰撞系数的方法,并分析了风速和水滴中值体
<正>2015年10月14~15日,第三届全国防灾减灾工程学术会议将在深圳召开。会议由中国灾害防御协会、国家自然科学基金委工程与材料科学部、《防灾减灾工程学报》编辑部、深圳大
根据仪表着陆系统航向信标工作原理,建立了相应的数学模型,利用MATLAB工具实现了理想信道时仪表着陆系统航向信标的仿真。仿真结果给出了航向道偏差时接收到的信号波形以及调
目的:探讨产后早期乳房按摩对产妇泌乳始动时间、泌乳量的影响。方法:将600例产妇随机分为观察组和对照组各300例。对照组产妇仅接受常规产后护理,观察组产妇在此基础上于产
cdma2000是面向第三代(3G)无线通信系统的标准之一,可在多种环境条件下以不同的服务质量(QoS)支持多种/复合业务(如话音、分组/电路数据、定位业务),满足IMT-2000的要求。在
目的:观察生血宝颗粒联合右旋糖酐铁治疗缺铁性贫血的临床疗效。方法:对照组50例用右旋糖酐铁、维生素c、叶酸、维生素B12等治疗,治疗组50例在与对照组治疗相同的基础上用生
近年来大学生逃课的现象愈演愈烈,引起了社会各界的关注。各个学校和各个院系都采取了不同的措施加以应对,但最后的效果大多不是很明显。从博弈论知识出发,先做出基本假设,然