计算机视觉中的有限监督学习研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hudongfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,计算机视觉中的识别任务,图像分类、目标物体定位、图像语义分割等,在有监督机器学习框架中取得具有前景的效果。然而,这样的机器学习系统要能在实际任务中被广泛使用,具有良好的表现和鲁棒的性能,需要依赖于大量精确标注的训练数据。获得大量精确标注的训练数据需要高昂的时间和人力成本。探索在尽可能使用少量标注情况下获得良好性能的机器学习方法(即有限监督学习方法)有助于降低获取精确标注样本所需要的时间和人力成本。因此,本文围绕着有限监督学习,研究了典型应用于图像分类中的基于图的半监督学习算法、基于全卷积网络的弱监督目标定位算法以及少样本语义分割算法,分别提出新的改进算法并进行实验验证。具体进行的主要研究工作包括:1、基于图的半监督分类算法中,快速弹性流形嵌入算法的研究。本文研究的第一个问题是基于大规模图的多类分类半监督学习问题。现有的可应用于大规模数据集的基于图的半监督学习方法大多不能处理未见样本或是基于硬线性约束,这限制了它们的应用范围和算法学到的模型性能。为此,本文在前人工作的基础上,提出了两种新的线性复杂度的算法,快速弹性流形嵌入算法(f-FME)和简化弹性流形嵌入算法(r-FME)。这两种方法都加速了FME算法[1],同时继承了其优点。具体地,本文提出的方法通过将回归残差项和流形平滑项相结合来解决硬线性约束问题,这自然地为处理未见样本提供了预测模型。为降低计算成本,利用少量锚点与所有数据点之间的底层关系构造图邻接矩阵,从而得到简化的闭式解。所得到的f-FME和r-FME算法不仅在时间和空间复杂度上对训练样本的数量来说是线性关系,同时能有效地利用有标记和未标记数据的信息。实验结果表明了该方法性能上的有效性和计算复杂度上的高效性。2、在全卷积神经网络框架下,研究基于全局加权平均池化方法的弱监督目标像素级定位方法。本文所解决的第二个问题是,基于全卷积神经网络,如何在只有图像级标签的训练样本的情况下,同时进行像素级定位和图像级分类的问题。过去的方法中使用的是全局最大池化和平均池化方法,这两种方法由于其硬编码和不可学习性,很难在弱监督学习过程中指示目标对象的精确区域。针对此,本文重点研究了在弱监督目标像素级定位这项任务中起关键作用的全局池化方法,探索了全局加权平均池化(GWAP)方法在该任务中的应用,提出了类不可知(class-agnostic)的GWAP模块和类特定(class-specific)的GWAP模块。本文在ILSVRC基准数据集上评估了所提出方法的图像分类和目标像素级定位能力。实验结果表明,所提出的模块能较好地捕获前景物体区域。此外,本文还进一步探讨了弱监督图像分类任务与基于区域的目标检测任务之间的知识迁移问题。提出了一个多任务框架,将类特定的GWAP模块与R-FCN相结合。该框架采用少量的拥有目标精确边界框的数据和大量只有图像级标签的数据进行训练。本文在PASCAL VOC数据集上评估这个框架。实验结果表明,该框架可以利用只有图像级标签的数据来提高目标检测模型的泛化性。3、针对少样本图像语义分割问题,研究联合上下文信息的内外相似性网络。由于精确的有标记分割样本收集成本高的问题,近年来少样本图像语义分割任务引起了人们的广泛关注。针对这个任务特点,考虑到使用少数几个有标记样本图像对预训练的分割网络进行微调很容易产生过拟合,过去的方法采用两分支结构,用支持图分支引导查询图分支的图像语义分割过程。然而,过去的工作只考虑了支持图和查询图之间的特征相似性,未能充分利用好查询图自身的自相似性。本文所解决的第三个问题是如何更好地利用查询图自身信息并融合支持图信息来提升少样本图像语义分割任务的性能。为此,本文提出了一种新的内外相似性网络(EICNet),在有效避免过拟合的情况下将来自支持图的信息和来自查询图的信息结合起来。本文还提出了两种额外有效的策略,包括结合全局上下文信息的特征增强和使用双尺度查询图输入网络来进一步提高性能。本文在基准数据集PASCAL VOC 2012-5上进行了广泛的实验。跟基准网络对比,所提出的方法EICNet完整版在性能上提升了3.6%。丰富的控制实验证明了每一项改进的有效性。实验发现查询图的内在相关性为更好的少样本语义分割性能提供了补充信息,本文提出的网络结构有效地利用了这种信息。
其他文献
吊销营业执照是行政部门对违法企业的一种行政处罚。我国《公司法》规定,企业被吊销营业执照后,禁止从事一切经营活动,但对于经营活动的范畴却没有做出明确的规定。其次,基于股权是一种特殊的权利,目前理论界及实务界对其认定尚存在分歧,因此,公司的股权转让类纠纷在公司纠纷类案件中,占了很高的比例。作者通过检索整理,发现其中涉及到吊销营业执照对股权转让行为影响的纠纷数量也占据了一定的比例,且在解决纠纷的诉讼中,
教学能力对于教师自身的专业发展和学生的培养有着极其重要的影响。然而,许多教师却抱怨有太多的杂事需要处理,没有用来提高自己教学能力的时间。教师的教学投入情况既影响学
北部湾(广西)经济区"4+2"城市旅游资源十分丰富且各有特色、互补性强,旅游合作前景广阔。搞好北部湾(广西)经济区"4+2"城市旅游合作的策略是:以科学发展观为指导,制定旅游可
课堂沉默是学生在课堂教学情境中所表现出的无声且无固定语义的非言语交际行为,是一种值得关注的课堂现象。本文运用叙事研究法、访谈法及观察法等质性研究方法,立体聚焦W市H
面对美元的霸权主义下的美国货币政策的消极溢出,我国国内通货膨胀不可避免地受到来自美国货币政策的冲击。在此背景下,本文针对美国货币政策对我国的通货膨胀的溢出效应进行
随着网络证券交易活动在我国的迅速发展,相关的一些法律问题也随之产生。主要表现在需要对各种复杂利益关系进行平衡、解决网络交易监管制度的不足以及在法律救济方面建立起
近两年,在《党内监督条例》的强势出击下,党内监督工作取得了很大的进步,但由于制度不完善等诸多原因,导致其在实践中仍存在很多问题。纪委是党内监督的专门机关,而处理党内
奶牛在围产期常发生营养代谢性疾病,特别是在集约化牛场中的高产奶牛,给集约化牛场造成巨大的经济损失。本试验旨在调查东北地区集约化牛场高产奶牛产后不同时期营养代谢与健康状况、奶牛脂肪肝、酮病、钙磷代谢障碍以及亚临床维生素E缺乏等主要疾病的保健效果和相关疾病的风险预警建立,为集约化规模牛场日后更有效的监控和预防奶牛产后营养代谢性疾病奠定理论和实际基础。本研究在东三省六个集约化牛场随机选取围产期奶牛(n=
伴随着生产的长足发展中国的市场化和全球化进程也在不断加快,在此开放环境下国际竞争力研究成为世界性热点问题。在品牌主导市场发展的二十一世纪中,山西省餐饮市场早已将竞
监控图像分类是计算机视觉领域的重要研究方向之一。该技术在实际生活中发挥着广泛的作用,如智能安防、智慧交通、自动驾驶等。随着计算机技术的发展和互联网的普及,人们的生活以及工作中出现了大量监控图像数据,面对数量如此巨大的图像信息,传统的图像分类方法和技术表现出诸多不足,对监控系统的“智能化”要求也就愈发提高。卷积神经网络的诸多特点不仅减少了网络的参数量、简化了网络模型、还进一步提高了网络模型的训练效率