基于上下文的视频概念标注方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:xtepnui2020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术和网络技术的迅速发展,以及大量视频应用的广泛普及,视频内容呈现快速增长趋势。面对海量的视频,如何对之进行有效的管理,使用户能够迅速检索到想要的信息,成为了一个亟待解决的重要问题。视频概念标注用语义词典中预先定义的概念对视频内容进行描述,能够有效支持包括检索在内的多种视频应用,对于视频内容管理具有重要的意义,也成为近年来研究的热点。然而,由于语义鸿沟的存在,视频概念标注仍然是一个困难而极富挑战性的问题。另一方面,视频中存在着丰富的上下文信息,这些信息对于提高视频概念标注的准确率非常有用。在本文中,我们把视频中的上下文信息分为三类,包括视觉上下文信息、语义上下文信息和视频文字上下文信息。其中,视觉上下文信息是指视频内容本身包含的视觉元素之间的相互关系,是视频本身的属性;语义上下文信息是指人类定义的语义概念之间的相互关系,可以通过对训练集标注数据学习而得到;视频文字上下文信息是指大量的视频中包含着文字,这些文字一般和视频内容密切相关,如果能够正确识别这些文字,将十分有利于计算机对视频内容的自动理解和标注。本文主要工作总结如下:  提出了一种基于Cubic BoW的视频特征描述方法,把视觉上下文信息融入到视频特征描述当中。对于一个给定的视频镜头,对之在三维网格上进行采样,对于采样得到的点进行聚类,形成视觉词典,把每个采样点映射到特征空间离它最近的那个视觉词。这样,一个视频镜头就可以看作是一个由视觉词组成的立方体结构。然后,根据视觉词在立方体结构中的相对位置,把它们看做一个视觉词的序列,并用一个扩展的马尔科夫链对之进行建模。这样,视觉词在时空域中的关系可以用该模型中的状态转移矩阵进行描述,并和原始的Bag-of-Words特征结合,作为视频内容的特征描述,能够有效提高其区分不同内容视频的能力。我们把该特征应用到两个不同的问题中,即视频概念标注和动作识别,实验证明,本文方法能够取得较好的效果。  提出了一种两阶段的视频概念标注优化方法。一方面,分别利用星型结构和链式结构的Conditional Random Filed(CRF,条件随机场)对视频中的空域语义上下文和时域语义上下文进行建模,并借用其训练预测方法完成优化过程。和现有方法相比,本文方法能够更为准确地对概念之间的相互关系进行描述。由于利用了训练集中人工标注的语义信息,体现了人类对于视频内容和语义概念的理解,该方法能够有效提高概念标注的结果;另一方面,由于训练数据的局限性和问题本身的复杂性,基于语义上下文的优化方法不可能完美地对概念之间的关系进行建模,因此,提出一种基于半监督学习的调整方法,作为基于语义上下文优化方法的有效补充:认为得分较高的镜头被进行了正确的标注,通过在视频镜头之间建立图结构,利用视觉上的相似性,采用半监督学习的方法用概念标注中置信度较高的优化结果对其余结果进行调整,能够进一步提高视频概念标注的准确率。  提出了一种基于颜色聚类和多帧融合的视频文字识别方法。首先,在视频文字检测中,统一考虑了文字区域图像的两个明显特征:一致颜色和密集边缘,采用近邻传播聚类算法,基于图像中边缘颜色的复杂程度,自适应地把彩色边缘分解到多个边缘子图中,使得在各个子图中检测文字区域更加准确。其次,在视频文字增强中,根据文字笔画强度图,过滤掉模糊文字区域,并综合平均融合和最小值融合,对在不同视频帧中检测到的,包含相同内容的文字区域图像进行融合,能够得到背景更为简单,笔画更为清晰的文字区域图像。再次,在视频文字提取中,一方面,通过自适应地选取具有较高文字对比度的颜色分量进行二值化,能够得到比现有的方法更好的二值化结果;另一方面,基于图像中文字与背景的颜色差异,利用颜色聚类进行噪声去除,能够更为有效地提高文字识别率。
其他文献
基于物理的动画是通过数值求解物体运动的规律来模拟现实世界里的各种物理现象如流体的流动,固体的形变和破碎,流体和固体的相互作用等,近年来大量应用于影视娱乐、虚拟现实
数据是互联网企业最具价值的资产之一,是互联网企业日常运营、战略决策等几乎所有经营活动所依赖的、不可或缺的信息。如何能够通过数据采集、数据抽取、数据加工、数据分析和
统计机器翻译是近年来自然语言处理领域最受关注的研究热点之一,具有重要的学术研究价值和广阔的应用前景。目前,统计机器翻译已经经历了基于词的模型、基于短语的模型、基于
可编程控制器(Programmable Logic Controller)是专为工业环境应用而设计制造的计算机,已经被广泛应用于建筑、制造、石油、化工和运输等各行各业。本文在高档数控国家工程研
随着互联网和多媒体技术的快速发展,图像成为一种极其重要的信息资源。如何快速检索如此巨大的资源就成为学术界亟待解决的问题。目前,基于语义的图像检索方法是一种流行的检索
随着人们通过移动网络的交往越加频繁,电信运营商积累了越来越多的个人信息以及用户行为数据,这些数据具有非常大的价值。如何对这些数据进行分析,使用这些数据建立模型,从而
随着互联网的不断发展和革新,传统互联网本身的系统结构局限性产生了越来越多的问题,网络规模指数级增长、多宿主、流量工程、服务提供商的独立性等需求导致了路由可扩展问题
随着民用航空业的迅速发展,这对机场管理的各个方面都提出了新的要求,如不同航站楼生产管理系统信息的交互,不同的体系结构的融合,信息更新频率的设定等。互异分布式系统消息
目前,我国的电信行业已经进入了全业务运营的实施阶段。各电信企业在完成业务的重组,建立新的竞争优势的同时,更把目光投向未来,瞄准了一些发展潜力巨大的战略性新兴市场。在
RTEMS是支持多处理器的开源的商业级嵌入式实时操作系统,目前广泛应用于航空航天、通信、军工、医疗、科学计算等领域。RTEMS支持多种API,如POSIX、ITRON以及RTEMS Classic PI,