图像与视频自动语义标注方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户：zoulin

【摘要】

：

基于文本检索的成熟技术来解决图像检索的问题已经取得了很大成功,像Google和Baidu等商业搜索引擎都已推出了自己的基于文本的图像检索服务。但是遗憾的是,互联网上大规模的

【作者】

：

彭亮

【机构】

：

山东大学

【出处】

：

山东大学

【发表日期】

：

2012年期

【关键词】

：

图像标注视频标注多示例多标签学习多示例核函数集成学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于文本检索的成熟技术来解决图像检索的问题已经取得了很大成功,像Google和Baidu等商业搜索引擎都已推出了自己的基于文本的图像检索服务。但是遗憾的是,互联网上大规模的数字媒体中仅有非常少量的数据是带有文本标签和文字描述的,而且数据还在快速增加。为了更好的管理和利用这些数据,让这些信息丰富的数据发挥更大的价值,对图像和视频的语义提取成为了近年研究的热点。过去十年,基于统计模型和分类模型提出了多种解决方案,但是都没有达到令人满意的效果。多示例多标签学习(MIML)是近年才出现的一种新的学习框架,由于其对多义性对象的出色表达能力而被运用到图像分类和标注任务中。MIML将样本看作由多个示例组成的示例包,并将其与多个语义标注关联。与传统的学习技术相比,MIML对多语义的复杂物体的表示更自然,而实验也表明MEML在图像场景分类等问题上都比传统的学习技术有更好的效果。MIML中对图像的多示例表示是解决图像多义性表达的关键,其生成方式对标注结果有重要的影响。本文分析比较了基于区域和基于网格的两种图像多示例生成方式,并采用一种新的图像分割算法进行基于区域的多示例生成。图像的多示例表示加大了图像间相似度的计算复杂度,本文采用一种多示例核函数来度量多示例数据的相似性,在不损失其多义性表示的基础上降低了计算复杂度。视频标注作为图像标注的延伸近年得到广泛研究,大多数方法都是将视频看作一组关键帧图像的组合,从而借鉴图像标注的理论方法来解决视频标注的问题,也取得了不错的效果。但是经典的图像标注方法没有时间维度,而时间维度是视频中很重要的信息。视频中一个镜头往往是描述同一个语义,即这个镜头中的所有帧图像的语义概念都是相同的,所以考虑视频的时间维度将会大大提高视频标注的准确度。本文同样将视频看作一组关键帧图像的组合对视频的自动标注进行了研究,并考虑视频中的时间维度,提出一种基于时间一致性的核函数提高视频标注的准确性。另外,为了提高模型的标注准确性和泛化能力,本文还探索了集成学习在图像和视频自动标注的应用。本文主要做了一下几个方面的研究：1)分析现有的基于多示例的图像标注算法,探索比较了两种多示例生成方法对结果的影响。2)提出一种基于MIML框架解决图像标注的问题的方法,我们首先采用一种新的图像分割方式提取图像的多示例表示,并采用多示例核函数度量其相似性,然后提出一个基于多种特征的集成学习算法。3)提出一种基于时间一致性的核函数,充分利用视频中关键帧之间的时间一致性提高视频标注的准确性。为了验证算法的有效性,本文将在Corel5k数据集,IAPR数据集和TRECVID2005视频分别验证图像和视频的标注算法。实验结果表明,我们的算法有效改善了图像和视频标注的准确性。

其他文献

基于GPU的图书推荐系统研究与实现

近年来,数字图书馆的建设受到世界各国高度重视,并已迅速发展为人们获取知识和信息的重要途径之一。但随着数字图书馆信息的快速增长,如何从海量的数字资源中获取用户需要的

学位

数字图书馆推荐系统协同过滤GPU计算CUDA框架

利用点击日志提升图像检索

伴随着数字媒体技术的迅猛发展,加之各类社交平台的盛行,数字图像的种类和数量呈爆炸式增长。基于内容的图像检索(Content-Based Image Retrieval,CBIR)作为一种能够从海量图

学位

图像检索近邻投票图排序点击日志特征提炼

TCP Congestion Control Analysis and Mechanisms for Maximizing Network Performance

TCP稳定状态的性能会受到网络拥塞的影响，如何为可获得的网络容量(瓶颈链路)选择合适的数据是一个开放性问题。网络拥塞主要是由于发送大量的数据流(如FTP数据)而导致的。本文

学位

拥塞控制路径信息容量性能锯齿效应工作原理TCP协议

多特征融合的博客文章排序和分类算法研究

随着社区化搜索技术的不断发展，博客以极快的速度融入社会生活中，成为当前互联网上较重要的一种社会媒体，并随之带来博客文章数量的指数级增长，如何在数量众多的文章中准确找到与

学位

排序算法分类算法PageRank算法贝叶斯算法

龙芯3号多核平台上性能调优环境的设计与实现

多核时代片上所集成的核数越来越多，龙芯芯片在继4核的龙芯3A之后也推出了8核的龙芯3B芯片。然而，程序所获得的性能提升并未随着芯片能力的提升而呈现线性增长，系统资源未被充分

学位

性能调优龙芯多核平台性能分析工具性能监测

P2P视频点播系统中用户上传能力的使用与优化

互联网已经成为人们生活中不可缺少的信息获取方式。而为了更好的服务于人们,各式各样的互联网应用随之出现。其中,网络视频服务可以说扮演了非常重要的角色。而由于这种服务

学位

P2PVoD用户上传能力

着色器简化和优化的研究与实现

随着计算机图形学的飞速发展,计算机图形在越来越多的领域发挥重要作用,比如数据可视化、虚拟现实、计算机动画和游戏制作等等。为了提高图形质量人们不断提出新的光照模型、

学位

渲染RenderMan着色器简化优化

两类圈图的谱确定性研究

图的谱确定性理论是图论中的一个新兴领域，主要涉及图的邻接谱、Laplacian谱和SignlessLaplacian(拟Laplacian)谱。　　 “哪些图可由它的谱确定？”，这个问题半个世纪前起源于

学位

邻接矩阵Laplacian矩阵邻接谱Laplacian谱哑铃图谱确定性理论

基于FPGA的网络协议信息隐藏技术研究

随着互联网的发展，信息安全已备受人们的关注。信息安全的实质就是要采取必要措施保护信息系统资源免受各种类型的威胁、攻击、干扰和破坏，即保证信息的安全性。信息的安全性主

学位

网络协议TCP/IP信息隐藏IP核FPGA

彩云阁:基于用户模型的服务组合平台

随着面向服务技术的普及,服务的整合技术也日趋成熟,但山于用户难以直接执行Web服务和进行服务组合,目前的服务组合定制性并不高,通常还会使用户陷入信息过载的困境。为了解

学位

用户模型面向服务应用服务搜索服务组合

图像与视频自动语义标注方法研究

与本文相关的学术论文