基于显著性及弱监督学习的智能视觉信息处理

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:qq3264132
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为人工智能系统中最关键的环节之一,视觉信息处理在过去的几十年内得到了飞速的发展。随着可获取的视觉数据海量式的增长,具有处理大数据能力的学习模型(如深度学习)在视觉信息处理系统的核心作用日益凸显,对提升各项视觉任务的性能起着至关重要的作用。一般情况下,此类视觉信息处理技术需要依赖人工标注的数据来训练特定任务下的学习模型。然而,为了训练这些模型,人们需要耗费大量的精力与时间来为数据提供标注。在当前的大数据计算模式下,这种人工标注的模式并不能适应视觉信息处理算法的需求,甚至已经阻碍了视觉信息处理系统对视觉大数据的利用。因此,以自主理解与分析图像及视频的(语义)内容为目的的智能视觉信息处理成为了新一代人工智能研究领域中的重中之重。在智能视觉信息处理中,如何提高系统的自主性,即如何尽可能地降低视觉学习中的人工参与程度是该领域中的重点、难点,同时也是目前亟待解决的问题之一。为了缓解这个问题,本文旨在提出新的显著性检测及弱监督学习算法框架来赋予视觉信息处理系统更加智能与自主地进行视觉模式分析与理解的能力。所设计的算法框架可以与现有的深度学习模型有机结合,从而为其提供诸多便利。具体来讲,一方面我们探讨怎样使计算机能够像人类视觉系统一样具有自主选择视觉显著信息的能力——也就是计算视觉注意力;另一方面本文致力于使计算机在认知视觉信号的过程中,能够更加自主地从无/弱标注视觉数据中完成有用模式的挖掘与学习,从而克服“海量数据规模”与“有限人工标注”之间的矛盾,大大增加视觉信息处理的自动化与智能化。本文取得的创新性研究成果主要包含以下几个方面:1.本文建立了有效的模型使其在没有任何像素级人工标注的情况下自动学习出深度显著物体检测模型。该研究属于无监督深度学习领域的前沿尝试。它同时具备基于学习的监督深度网络方法的准确性以及传统无监督方法的便利性,因此在该领域具有重大意义。在本文中,我们揭示了“融合监督”(supervision by fusion)策略——通过融合弱显著模型来逐步产生可靠的监督信号。具体来说,通过信息融合,本文利用所获得的融合图来提供更可靠的监督信息以及样本置信权重来建立动态学习课程(learning curriculum)。本文在四个公开测试库上进行实验,结果表明本文所设计的基于融合监督的学习框架可以成功实现无监督显著性模型的深度学习。2.通过深入分析事件显著性检测任务中的主要难点,本文推进了对这个有意义但尚未解决的问题的认识。具体来说,本文提出了无监督的事件显著性检测框架。它首先从多种模式中提取特征来表示给定视频集合中的每个片段。然后这些片段被聚类以建立群集级别(cluster-level)的事件显著性检测框架。这个框架利用一个简洁的优化模型来探索有用的信息线索(包括群集内先验、群集间区分性和群集间平滑性)。利用这样的检测框架,本文的方法可以激活无约束互联网视频集合中未知事件的内在刺激。这些所发现的内在刺激(即事件显著片段)能够有效推进对视频内容的智能理解。我们在三个数据集上做了详细的实验用以证明本文方法的高效性以及模型中各个成分的有效性。与已有监督方法相比,本文的方法能够取得相差不多或甚至更好的结果。3.通过探索协同显著性检测与弱监督学习(WSL)之间的内在关系,本文提出利用多示例学习(MIL)来探索协同显著性检测的隐式指标。与此同时,本文还建立了新的自步学习(SPL)机制。它可以将两个有助于协同显著性检测的先验信息(样本的多样性与空间平滑性)应用于学习过程中。为了将多示例学习与自步学习融合在一个统一的学习框架中,本文建立一个新的自步-多示例学习(SP-MIL)模型。所提出的SP-MIL模型可以以自学习的方式逐步探索协同显著性的本质内涵。实验表明,本文的方法在多个协同显著性检测的公开测试集上能够取得超越目前最先进的方法(state-of-the-art)的性能。同时,本文还将所设计的算法成功应用于多个相关的计算机视觉应用中。4.本文提出了基于贝叶斯准则的新的弱监督学习框架,并将其应用于光学遥感影像中的目标检测任务。本文的方法可以极大程度地减轻人们标注训练数据所消耗的时间和精力,并与此同时获得与全监督方法具有相差不多的实验性能。为了提取有效的高层特征表达,本文提出了一种无监督特征学习机制,它通过利用深度波尔兹曼机(DBM)来获取地理空间物体的结构和空间模式。为了证明本文方法的有效性,本文建立了三个光学遥感影像数据集,他们包含具有不同空间分辨率和感兴趣物体的遥感影像。最终,在这三个数据集上的,本文做了一系列实验来综合分析模型中所考虑的各个模块,并验证所提出方法的有效性。
其他文献
兴趣点(point-of-interest,POI)推荐是基于位置的社交网络(location-based social networks,LBSN)中一项重要的服务。针对目前推荐算法存在的噪声数据影响推荐质量,用户个性化程
目的探讨心理护理干预在耐多药结核患者治疗中起到的作用,为临床对耐多药结核患者治疗提供依据。方法回顾性分析2010年3月至2012年9月我医院收治的耐多药结核患者51例采临床
目的:探讨利用HPLC-紫外检测器(UV)和HPLC-蒸发光散射检测器(Evaporative light scattering detector, ELSD )测定乳酸环丙沙星氯化钠注射液中环丙沙星含量,比较两种检测方法的优
文章旨在分析农村土地流转中租金的确定过程及结果.文章认为,土地的重要性、农民丧失非农收入来源的可能性以及非农收入的多少等因素决定了农地流转的租金,并最终影响到土地
<正>m16磁敏免疫分析系统,由m16磁敏免疫分析仪、电子质控卡、液体质控品、配套检测试剂组成,应用世界先进的生物芯片、智能微流控、纳米磁颗粒技术,可以为临床提供媲美中心
计算机视觉领域的各类任务从本质上都是帮助人们更好地理解图片,如果能寻找到彼此之间的相关性并加以利用,对完成每项具体任务都有促进作用。目前计算机视觉领域的各类算法模型对于自然场景下图像的处理效果都不理想,以Pascal VOC数据集为例,图像往往具有多目标、目标尺度不一、背景复杂等情况。图像识别与翻译是计算机视觉领域的重要研究课题,相关算法对于自然场景图像的处理效果都有待提高,同时能否利用识别模型的
首先分析了城市规模与技术创新之间的理论机制,然后利用2007~2016年河南省地级市的面板数据进行实证检验,以地级市发明专利授权量密度作为城市创新能力的代理变量,以就业人口
为探索超级稻氮肥高效利用机制、途径以及关键技术,进而构建超级稻氮素养分高效利用技术体系,实现超级稻生产的高效、低耗和环境可持续,2017年早、晚季,分别以中嘉早17、株两
作为与人类同属哺乳动物中最高级的灵长目动物,猴是自然界中最接近人类的动物,这使得人类对通身透着聪明伶俐,灵活敏捷而又滑稽有趣的猴子,天然地有一种特殊的亲近感。而吴承恩《
报纸