电视节目结构化分析与摘要技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:cnwan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电视节目结构化与摘要技术是多媒体内容分析领域研究的主要问题,在视频数据的浏览和检索领域有广泛的应用价值和商业价值。虽然经过多年的研究,电视节目结构化与摘要技术已有了长足的发展,但是要实现一个通用的电视节目结构化与摘要系统还有许多问题有待解决。   本文以电视节目结构化与摘要技术作为研究对象,针对不同类型的电视节目设计了一套通用结构化框架进行逻辑单元分割,并在逻辑单元的基础上针对不同类型节目设计了图片摘要及可视化方法,论文的主要工作和贡献如下:   1.本文提出的镜头检测算法引入了UniformLBP特征作为图像描述基本特征,该特征对于镜头间的渐变比其它特征表现出更好的敏感性,而对于镜头内移动变化则表现出同其它特征类似的稳定性。在差异度构造上本文采用了图模型,这样可以在突出不同图像间差异的同时减小异常扰动。最后本文采用了SVM分类器,对镜头进行分类。   2.根据逻辑单元的语义结构分析,本文提出了通用的逻辑单元分割框架。通过定义四种镜头类型,将逻辑单元分割问题转化为标签识别问题,这一转化将逻辑单元分割中的两类分割问题纳入到同一的框架下,这样的设计使算法在不同类型的节目上有更广泛的拓展性。针对连续镜头标签的识别,本文引入了条件随机场技术,同时选择了镜头差异信号特征、场景转换图特征、主题镜头特征和音频类型特征四种语义特征。由于条件随机场在标签估计的过程中考虑到不同标签中的状态转移概率和训练数据的统计结果等上下文信息,因此可以有效的提高标签估计的准确率。   3.本文在逻辑单元分割的片段基础上,利用镜头聚类、主题镜头和摄影机运动方向等语义信息针对影视剧、新闻节目和纪录片三类电视节目设计图片摘要算法。基于逻辑单元层图片摘要比基于镜头层的图片摘要有更好的简洁性,比基于视频段的图片摘要有更好的概括性,适于视频内容的预览。在图片摘要的基础上,根据影视剧、新闻节目、纪录片三类电视节目各自特点设计了漫画式故事板方法来展示图片摘要,可以提高浏览的趣味性。
其他文献
机器人作为20世纪人类最伟大的发明之一,代表了当今社会最先进的智能控制技术。仿人机器人作为系统结构最复杂、集成度最高、与人类最为相似的一类机器人,代表了最先进的机器
论文在分析了药芯焊丝拉丝机的机构、特点以及在拉制过程中影响焊丝张力因素的基础上,建立了各机架分部数学模型、机架间张力的数学模型和整机的数学模型.并在此基础上,分析
城市交通系统与城市发展息息相关,对人类文明演化起到不可替代的支撑作用。但近年来,随着大量人口向城市集中和城镇化进程不断加速,交通压力越来越大。而旧有的城市交通改善方法
该文对工业CT局部找描的重建算法及其在计算机上的实现进行了研究.论文介绍了研究背景,通过比较分析,定出了将平行束扫描方式下的局部图象重建作为课题的研究内容.
多任务学习用于同时学习多个相关任务,通过联合学习,它既保持了任务间的差异性又充分利用其相关性,从而从整体上提高所有任务的学习性能。多任务学习引起了很多学者的关注,基于不
基于图像的物体定位是计算机视觉领域的一个重要内容,在诸如机器人导航和虚拟现实等领域有重要的应用价值。本文对基于点对应的物体定位方法进行了比较系统的研究,包括多解性,解
模式分类是机器学习和模式识别的核心问题,而特征表示和分类器设计又是模式分类的关键步骤。大量的特征提取方法以及分类器模型被相继提出并在实际问题中得以广泛应用。然而绝
基于视觉的定位方式是机器人领域应用较为普遍的定位方式之一,目前已得到了国内外众多科研工作者的广泛重视,具有较为广阔的应用前景。基于普通视觉的定位方式视野狭窄,路标检测
半监督学习是一种应用驱动而产生的机器学习方法,已经成为人工智能和模式识别领域的研究热点之一。作为该领域的主要分支,半监督聚类将给定的少量监督信息引入最优聚类的搜索过
对于脱机手写中文文本识别,字符切分是其中一个十分重要的部分。由于在字符识别之前不能准确地切分,往往采取过切分方法,即将字符串切分成基元片段,然后结合字符识别和上下文动态