跨图像视觉语义的挖掘研究

来源 :南京大学 | 被引量 : 0次 | 上传用户：xiaoppqq

【摘要】

：

随着互联网的发展和网络流量成本廉价化,基于网络的交互方式从原来的文本逐渐向图像和视频等多媒体倾斜,对视觉图像和视频等数据的理解和分析变得十分迫切。近些年来,物体识

【作者】

：

袁泽寰

【出处】

：

南京大学

【发表日期】

：

2017年期

【关键词】

：

跨图像语义共有类别分割共有类别发现视频理解动作检测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的发展和网络流量成本廉价化,基于网络的交互方式从原来的文本逐渐向图像和视频等多媒体倾斜,对视觉图像和视频等数据的理解和分析变得十分迫切。近些年来,物体识别、场景分类、物体检测和图像分割等计算机视觉子问题已经取得了很大的进步,使得计算机已经有足够能力理解单幅图像中的内容和语义信息。不同于图像语义,跨图像语义是只有多幅图像才能表达的语义,例如图像之间共有类别和视频帧表达的动作等。相比于单幅图像理解,对跨图像语义挖掘的研究还不够成熟,效果依然不理想,本研究旨在进一步提升跨图像语义挖掘的准确性和有效性。本文从无时序图像间的语义挖掘出发,首先粗略地探索图像间的共有的类别,进一步快速分割共有类别区域,然后利用深度学习技巧,精确地分割图像间共同出现的前景;紧接着,本文试图利用图像间的时间顺序信息,提炼一系列连续图像帧表达的语义,即理解视频片段表示的动作。本研究的主要创新性贡献体现在以下几个方面:1、提出了一个新的生成概率模型来提高图像间共有类别发现的有效性。该模型建首次将像素级、区域级乃至图像级别的外观特征建模在统一概率模型框架下用于共有类别发现,进一步降低单粒度特征带来的歧义。基于同一类别的像素和区域粒度的外观信息应该一致的观察,类别的求解转化为概率模型隐变量的推理问题。另一方面,为了建模类别之间空间位置的相关性,该模型进一步引入场景上下文先验知识来约束图像像素类别的归属;2、提出了一种新的视觉关系网络来高效地实现图像间共有类别分割。该模型将图像共有类别分割建模为分割片的选取问题,提出使用视觉关系网络组织由底层分割技术获得的大量分割片。基于视觉关系网络,本文进一步提出一种基于主题的随机游走算法能够快速地给分割片打分并计算可能的类别,分数高的对应于那些准确的共有类别分割片。图像分割对应于寻找不重合并分数高的分割片组合;3、提出了一个新的深度全连接条件随机场来实现图像间共有物体分割。此方法将深度神经网络和全连接条件随机场结合在统一框架下,来发现不同图像中共有的前景物体;同时本文提出采用一种新的共现频率图来表示每一幅图像中各个像素共同物体出现的可能性。最终以共现频率图为主要先验,分割出每一幅图像中共同出现的前景物体,实现共有前景物体分割;4、提出了一种新的结构化子序列最大和方法来检测时序图像中的动作。相比于无时序的图像集合,视频帧之间具有极大的相关性和连续性,因此除过表示帧之间共同出现的信息,视频还表达了不一样的语义信息,即动作。为了能够检测到长视频中某一个动作出现的片段,本文提出一种新的结构化子序列来表示动作片段,并提出一种线性的动态规划算法来快速地找到动作出现的位置。本文提出的算法进一步利用神经网络的表达能力,实现系统端到端的学习,使得最终的结构化子序列能挖掘帧之间的关系和反应动作的特性。本文从对无时序图像之间语义的挖掘到对视频的理解,在现有研究的基础上,提出了一系列提升效果和效率的方法,实现了对无时序图像之间共有信息的发现和分割,同时拓展到顺序图像帧之间语义的发掘,即视频中动作的检测。本文提出的创新思路解决了跨图像语义挖掘的部分难题,包括引入上下文信息增加对语义挖掘的约束,利用深度学习增加语义挖掘的准确度等,在各个标准集上得到了一定程度性能的提升。

其他文献

21世纪初中国基础教育改革中综合美育发展的新形态

21世纪首年启动的新中国成立以来最大规模的基础教育课程改革(简称"新课程改革"),为基础教育中审美教育新形态的形成及多样化发展、美育功能在学校教育中的充分发挥提供了难

期刊

基础教育改革综合美育学校教育

西班牙文学作品在中国的翻译和出版(1915—2011年)——基于书目的统计与分析

从1915年到2011年,中国累计翻译西班牙文学作品共有500多部,《堂吉诃德》是被翻译出版最多的著作。文章对近百年来西班牙文学作品在中国的翻译和出版状况做了统计和分析,并就

期刊

西班牙文学文学翻译出版研究统计

成都工行财富管理业务市场进入战略研究

本文拟先对财富管理业务的兴起进行阐述,运用PEST分析方法,对财富管理业务兴起的社会背景从政治、经济、社会、技术等多个层面进行宏观研究,并分析了财富管理业务对提升商业

学位

情景规划法波特五力分析模型财富管理业务

死者有形人身遗存的法律属性辨析

人-物二分理论系近现代民法体系得以构建的重要基石。该理论虽有助于彰显生命人的主体资格和人格尊严,但在处理因尸体及与尸体分离的器官、组织、细胞而生的法律问题时,不免

期刊

死者有形人身遗存类人身绝对身份权人格

广西西江流域植被移除磷素污染的生态系统服务价值

3S技术的应用,为快速计算生态系统服务价值提供了新的方法。以ArcGIS9.2为平台,构建广西西江流域生态系统减轻集水区出口受纳水体非点源污染服务物质量和价值量评估模型,以总

期刊

广西西江流域水文敏感区关键污染源区植被移除磷素量生态系统服务价值

良性发作性位置性眩晕患者治愈后发生残余头晕相关因素分析

目的探讨良性发作性位置性眩晕(BPPV)患者治愈后发生残余头晕的相关因素。方法选取我院神经内科行管石复位术并均复位成功的BPPV患者120例,对比头晕组和无头晕组的一般资料、

期刊

良性发作性位置性眩晕残余复位半规管危险因素

高校学生宿舍管理问题分析与对策研究

针对高校学生宿舍管理工作中存在的问题,从管理制度、管理人员、住校学生、硬件环境等多角度进行原因分析和对策研究,并提出相关建议,探索新的宿舍管理模式,适应高校教育管理

期刊

高等院校宿舍管理大学生

新中国漫画60年——漫画审美的变迁

从1949年至今,新中国漫画走过了60年的历程。无论是以前作为大众政治传媒,还是如今作为大众文化传媒,漫画始终没有失去其大众性。作为漫画的欣赏者——广大民众也在不知不觉

期刊

漫画审美主旋律民族化多元化

可可粉中铜、铁、锌、锰、铅的测定

建立微波消解火焰原子吸收法测定可可粉中的微量元素铜、铁、锌、锰、铅含量的方法。对酸效应、共存离子干扰、背景干扰、准确度和精密度进行考察。用微波消解法处理可可粉。

期刊

火焰原子吸收法可可粉铜铁锌锰铅

二连盆地阿南油田沉积体系研究与地质建模

阿南油田位于二连盆地马尼特坳陷东北部,于1988年投入开发。受区域构造背景的影响,储集层由多种沉积体系叠置而成。由于阿尔善断裂间歇性的活动和湖水面的周期性进退,导致储

学位

阿南油田三角洲层序地层学沉积体系地质建模

跨图像视觉语义的挖掘研究

与本文相关的学术论文