基于图模型表达和稀疏特征选择的图像语义理解

来源 :浙江大学 | 被引量 : 0次 | 上传用户:a724494702a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0和社会媒体的快速发展,海量的图像和视频数据在互联网上涌现,这就给多媒体存储、索引和检索的相关研究带来巨大挑战。传统基于内容的图像检索(CBIR)技术利用图像视觉内容对图像进行索引和检索。然而,由于底层视觉特征和高层语义之间的语义鸿沟,CBIR的性能不能令人满意。为了解决语义鸿沟问题,研究者在图像语义理解进行了大量研究。最近的研究热点是统计和机器学习方法在图像检索和语义理解中的应用。本文研究图像语义理解的三个关键问题:基于上下文融合的图像语义理解、异构视觉特征选择、以及图像自动标注。在以上三个关键问题研究的基础上,本文提出了基于图模型表达和稀疏特征选择的图像语义理解框架。   为了有效利用互联网图像所具有的丰富上下文属性,对Web图像检索结果按照语义主题进行归类,本文在图像与其伴随文本中定义了“单词可见度(visibility)”这种新的异构关联,并将其与从图像伴随文本中提取的同构关联结合,在复杂图和二部图上进行聚类分析。具体而言,本文在聚类过程中考虑了Web图像的两种关联属性:伴随文本单词与图像之间的异构关联以及伴随文本单词之间的同构关联。这一方法不仅能够反映单词与图像之间语义关联,而且所定义的单词可见度充分利用了图像的伴随文本这一上下文属性。在此基础上,本文应用复杂图聚类和二部图协同谱聚类等算法验证了在图模型中引入两种上下文关联进行图像聚类的有效性,达到了改进Web图像聚类性能的目的。   视频关键帧图像的语义理解需要有效利用视频镜头中的上下文多模态信息(如转录文本、视觉特征和多标签标注信息等)。为了对各种模态下多个视频镜头之间的高阶关联进行表达,本文引入超图来表达数据间存在的高阶复杂关系。具体而言,各种模态下多个视频镜头之间的高阶关联用超图的超边进行表达,则视频镜头的多模态特征可表示为多个超图模型。通过在多个超图上定义Markov随机游走模型,本文提出多超图排序(MHR)算法对无标记视频镜头的语义概念进行预测,该方法充分利用了视频镜头的上下文多模态信息和高阶关联。在TRECVID数据集上的实验表明了基于MHR进行多模态融合的视频语义概念检测的有效性。   由于本质上的视觉多义性,图像和视频往往被标注多个语义标签。发现并利用多标签之间的关联关系将能提升多标签语义理解的性能。相关研究表明通过子空间学习将多标签关联嵌入子空间,可使得有共同多标签标注的数据样本在所嵌入的子空间中距离相近。本文提出稀疏多标签迁移学习(S-MLTL)框架进行图像自动标注和视频语义概念检测。其基本思想是在相关数据集上学习得到稀疏多标签嵌入的子空间,通过将目标数据集的训练数据和测试数据嵌入该子空间实现多标签关联信息的迁移,从而在目标数据集上取得更好的语义理解性能。在S-MLTL框架中,对脊回归、lasso和elastic net等模型在图像自动标注和视频语义概念检测中的应用进行了分析和比较。   图像中可提取多种局部和全局异构视觉特征(如颜色、纹理和形状等)。这些不同异构视觉特征对识别不同语义概念的重要性不同。与传统降维和流形学习方法不同,本文提出了反映结构性组效应的稀疏特征选择机制。这一方法以异构视觉特征为特征组,对特定语义标签选择最具区别性的特征组和组内的特征子集,以提升图像语义理解的性能,并且这种结构化特征选择将得到图像语义理解的可解释模型。因此,本文提出结构性组稀疏的回归模型进行异构视觉特征选择。为了利用多标签之间的关联关系,提出多标签提升算法并与结构化视觉特征选择模型有效集成。因此,本文提出对图像异构视觉特征进行结构性组稀疏特征选择的多标签性能提升框架MtBGS。在开放基准图像数据集上的实验表明,MtBGS有良好的多标签图像自动标注性能,并使得图像语义理解过程可解释。
其他文献
随着互联网的快速发展,人们越来越多的社会活动发生在虚拟的网络空间。网络服务商为人们提供各式各样便利的网络服务,例如即时通信、网络支付等。但是目前,这些服务的身份认
目前随着计算机网络的飞速发展,涌现出了大量的对网络要求较高的多媒体实时业务,网络对QoS的需求也迅速提高,越来越需要对QoS具有较高支持度的网络。组播实现了同一信息从源
随着互联网的发展以及移动互联网时代的到来,为了应对大数据下的业务需求,集群的规模也在日益的变大,与此同时分布式系统的自动化部署和自动化管理的问题日益突出。尽管现在
随着GPS定位、无线传感等技术的发展与运用,以及具有定位功能的无线手持、车载设备的普及,使得基于移动对象的位置服务被广泛使用。移动对象的位置等信息随时间发生变化,数据
近年来,微型博客(简称微博)越来越受到网络用户的青睐,成千上万的用户通过发布微博共享他们的观点和情感。其中,有大量带有情感倾向(认为某事物“好”或“坏”)的微博文本,这些微博文
统计技术是目前机器翻译研究的主流技术。统计机器翻译研究的先决条件是要有充足的双语平行语料库。翻译系统的性能与语料库规模是密不可分的。近年来,汉蒙机器翻译研究已取得
随着信息技术的飞速发展,在线考试系统已经广泛地应用于各个领域,这种考试形式不仅节约了大量的人力、物力资源,更增强考试的灵活性、公正性和高效性。   高等院校作为考试最
轮廓编组的目的是从输入中提取独立的目标轮廓,是一种以边缘片段为编组对象的知觉组织过程。由于轮廓能够很好地描述目标的几何特征和拓扑特征,并且表示具有很好的简洁性,因
中文短文本分类近年来随着国内移动互联网的快速发展和智能手机的普及成为一个新的研究热点。在电子取证领域,如何快速准确的从手机等设备的大量短信文本中提取出有用信息成为
随着科技的发展,计算机在人们的工作、生活中占据着越来越重要的作用。如果计算机能够拥有人类理解和表达情感的能力,并能够自主适应环境,将从根本上改变人机关系,提高人机交