高维可视信号的结构化处理

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:divide2058
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
可视信号(包括图像、视频、光场等)因其高维特性以及受光照、背景噪声、尺度变化和非刚性形变等因素的影响,相比传统低维信号(如雷达信号、声音信号等)呈现更复杂的变化和更抽象的含义。针对高维可视信号的认知问题,本文将复杂的研究对象分解为多个相对简单和稳定的视觉单元进行结构化表示,并利用结构化预测的方法探索视觉单元的内在联系并联合建模。从低层视觉认知到高层视觉认知,本文针对样例、物体、场景和配文图像四类视觉对象,从姿态、部件、语义元素和认知概念四个方面对它们进行结构化表示,并通过直推式学习、核方法、多任务学习和概率图模型四种方法进行结构化预测,应用于视频分割、物体识别、场景分类和图像理解任务。  本文介绍了一种直推式多分量视频分割算法,用于在视频序列中分割出预定义的感兴趣物体样例。借鉴图像协同分割的核心思想,本文提出的视频分割方法通过同时最大化帧间前景相似性并最小化帧内前景-背景相似性的方式联合分割多帧视频图像。本文提出的视频分割方法利用有约束的参数化最小割算法从分割空间合理采样分割假设,并设计了一个能量函数从前景相似性、前景-背景差异、边缘强度和视觉显著性四方面评估每个分割假设。最终采用蒙特卡洛逼近方法将分割假设加权组合形成最优前景分割。同时,本文构建了多分量前景模型用来捕捉视频中前景物体的形态变化,对前景物体外观差异巨大的视频具有更强的鲁棒性。为了将视频帧组织成不同的分量,本文设计了一个树结构的图模型,称为时域树。它通过概率聚类将外观相似并且时间一致的帧聚合成一个分支,并通过直推式学习训练泛化能力更强的分量模型。  本文提出了一种基于结构核函数和多尺度基于部件模型的物体识别算法。多尺度基于部件的模型在可变形基于部件模型的基础上引入了多尺度部件表示,能够更准确地捕捉物体由于姿态、视角和类内多样性等因素造成的部件尺度变化。本模型将物体的外观特征表示为一个整体视觉特征和多个部件的视觉特征。部件的空间布局在三维空间中表示,包含了二维平面坐标及尺度。其次,本文提出了一种结构核函数,将局部核的强大区分能力与基于部件模型的灵活表达能力相结合,取得更强的物体识别性能。鉴于同一类物体的不同个体应该具有相似的整体外观、独特的局部部件和特定的空间布局,文本提出的结构核函数从整体外观相似度、部件外观相似度和部件空间布局相似度三个方面衡量两个物体的相似度。此外,局部核函数具有灵活的参数配置,可以针对不同类型的物体通过数据驱动的方式进行学习,从而更准确地刻画不同类型物体的视觉特性。  本文设计了一种基于多任务语义码本学习和上下文感知的图像表示的场景分类方法。首先,本文提出的多任务语义码本学习算法用一个独有的语义码本编码特定语义类别的局部特征,从而能够更精准地刻画该语义类别的颜色、形状和纹理特性。不同于传统的单独码本学习方法,本文学习一个紧致的全局码本,而各语义码本均是这个全局码本的一个稀疏子集。一方面,某些码字可以被多个语义类别共享,从而刻画了不同语义类别之间的内在关联。另一方面,某个语义类别也可以包含一些专有的码字,进而体现了该语义类别的独特性。为了学习多个不同类型的语义码本,本文设计了一个多任务码本学习算法。该算法通过交替利用凸优化方法最小化聚类误差,并利用亚模优化方法最优化语义码字分配,从而获得最优的码字和码字分配。基于上述学到的全局码本和语义码本,本文进一步提出了一种上下文感知的图像表示方法,通过上下文量化、语义响应计算和语义聚合三个步骤进行场景表示,取得了更准确的场景分类效果。  本文开发了一种基于文本、物体和场景之间跨域关系的联合图像理解方法。具体来说,本文将文本和物体之间的关系表示成文本中的名词与物体类别之间的匹配概率,并设计了一个实例级有约束的双边匹配问题求解。另一方面,物体或文本与场景之间的关系被表示成物体或名词在不同类型场景中的出现概率。本文提出了一种利用图像级标注信息,包括图像的场景类别和图像中的各类物体的基数,来有效学习上述跨域关系的方法。基于学到的文本、物体和场景之间的关系,本文进一步提出一种图像综合理解模型,用于联合预测图像所属的场景类别、图像中存在的物体类别、各类物体包含的实例基数,以及物体实例的位置。借助现有物体检测及场景分类方法提供的线索,本文建立了一个条件随机场模型用以描述文本、物体和场景的联合概率。
其他文献
新的小学语文教材增加了实践活动的内容,这是新亮点之一,实践活动对教师提出了新的要求,本文多次进行了分析。
随着信号处理技术的不断发展,数字音频已经走进了人们的日常生活,并极大地影响了人们的生活方式。为了满足数字音频码流通用性的要求,各种音频标准应运而生。目前,MP3、AC-3
数字电视的发展代表了一个国家数字化程度的高低,中国预计2015年完成模拟电视向数字电视的转换,地面数字电视的发展显得尤为重要,国际上主要有3种地面数字电视传输标准,美国
重视儿童学话在小学阶段,老师经常听到小学生说些不规范的普通话,作文当中,经常看到一些不规范、不通顺的语句,诸如,"家走了"、"干啥去您?"、"他从家呢。"等等,这些话说出来,对方虽懂其意,但
占地球面积50%的深海海底以其广阔的空间、丰富的资源和特殊的政治地位日益成为世界各国关注的战略区域。海洋动力环境数据包括温度、盐度、密度、溶解氧、波浪、海流(含潮流
注重朗读能吸引学生主动融入阅读情境,感受语言的神奇、内容的丰富多彩、内蕴的意味绵长,与作者心灵相通,感悟美、体验美,得到爱的抚慰、情的熏陶。从而促进学生阅读意识,能力与品
在各种艺术中,作为一门科学的语文教学是一种独特的艺术。在这门艺术的教学过程中,教师既要引领学生掌握知识,同时又要熏陶情感,养成美德,在多年的语文教学中,我积累了一些教学经验
本论文属通信(光纤通信)与信息系统(传感信息获取)学科。  相对于分立式的光纤放大技术,分布式拉曼放大(DRA)技术在噪声指数、非线性损伤、增益带宽等诸多方面展现出明显优
随着计算机技术的飞速发展,传统电影制作中引入了数字技术,一方面弥补了传统镜头做不到的特技效果,另一方面大大方便了影片的传输。于是,为了统一数字电影在整个数字电影系统
无线传感器网络(WSN)的快速发展,使得基于WSN的定位服务具有巨大的市场价值。高效、实时、精确的定位算法是决定该定位服务潜力的关键性因素。在传统的WSN定位算法中,基于接