论文部分内容阅读
作为人工智能系统中最关键的环节之一,视觉信息处理在过去的几十年内得到了飞速的发展。随着可获取的视觉数据海量式的增长,具有处理大数据能力的学习模型(如深度学习)在视觉信息处理系统的核心作用日益凸显,对提升各项视觉任务的性能起着至关重要的作用。一般情况下,此类视觉信息处理技术需要依赖人工标注的数据来训练特定任务下的学习模型。然而,为了训练这些模型,人们需要耗费大量的精力与时间来为数据提供标注。在当前的大数据计算模式下,这种人工标注的模式并不能适应视觉信息处理算法的需求,甚至已经阻碍了视觉信息处理系统对视觉大数据的利用。因此,以自主理解与分析图像及视频的(语义)内容为目的的智能视觉信息处理成为了新一代人工智能研究领域中的重中之重。在智能视觉信息处理中,如何提高系统的自主性,即如何尽可能地降低视觉学习中的人工参与程度是该领域中的重点、难点,同时也是目前亟待解决的问题之一。为了缓解这个问题,本文旨在提出新的显著性检测及弱监督学习算法框架来赋予视觉信息处理系统更加智能与自主地进行视觉模式分析与理解的能力。所设计的算法框架可以与现有的深度学习模型有机结合,从而为其提供诸多便利。具体来讲,一方面我们探讨怎样使计算机能够像人类视觉系统一样具有自主选择视觉显著信息的能力——也就是计算视觉注意力;另一方面本文致力于使计算机在认知视觉信号的过程中,能够更加自主地从无/弱标注视觉数据中完成有用模式的挖掘与学习,从而克服“海量数据规模”与“有限人工标注”之间的矛盾,大大增加视觉信息处理的自动化与智能化。本文取得的创新性研究成果主要包含以下几个方面:1.本文建立了有效的模型使其在没有任何像素级人工标注的情况下自动学习出深度显著物体检测模型。该研究属于无监督深度学习领域的前沿尝试。它同时具备基于学习的监督深度网络方法的准确性以及传统无监督方法的便利性,因此在该领域具有重大意义。在本文中,我们揭示了“融合监督”(supervision by fusion)策略——通过融合弱显著模型来逐步产生可靠的监督信号。具体来说,通过信息融合,本文利用所获得的融合图来提供更可靠的监督信息以及样本置信权重来建立动态学习课程(learning curriculum)。本文在四个公开测试库上进行实验,结果表明本文所设计的基于融合监督的学习框架可以成功实现无监督显著性模型的深度学习。2.通过深入分析事件显著性检测任务中的主要难点,本文推进了对这个有意义但尚未解决的问题的认识。具体来说,本文提出了无监督的事件显著性检测框架。它首先从多种模式中提取特征来表示给定视频集合中的每个片段。然后这些片段被聚类以建立群集级别(cluster-level)的事件显著性检测框架。这个框架利用一个简洁的优化模型来探索有用的信息线索(包括群集内先验、群集间区分性和群集间平滑性)。利用这样的检测框架,本文的方法可以激活无约束互联网视频集合中未知事件的内在刺激。这些所发现的内在刺激(即事件显著片段)能够有效推进对视频内容的智能理解。我们在三个数据集上做了详细的实验用以证明本文方法的高效性以及模型中各个成分的有效性。与已有监督方法相比,本文的方法能够取得相差不多或甚至更好的结果。3.通过探索协同显著性检测与弱监督学习(WSL)之间的内在关系,本文提出利用多示例学习(MIL)来探索协同显著性检测的隐式指标。与此同时,本文还建立了新的自步学习(SPL)机制。它可以将两个有助于协同显著性检测的先验信息(样本的多样性与空间平滑性)应用于学习过程中。为了将多示例学习与自步学习融合在一个统一的学习框架中,本文建立一个新的自步-多示例学习(SP-MIL)模型。所提出的SP-MIL模型可以以自学习的方式逐步探索协同显著性的本质内涵。实验表明,本文的方法在多个协同显著性检测的公开测试集上能够取得超越目前最先进的方法(state-of-the-art)的性能。同时,本文还将所设计的算法成功应用于多个相关的计算机视觉应用中。4.本文提出了基于贝叶斯准则的新的弱监督学习框架,并将其应用于光学遥感影像中的目标检测任务。本文的方法可以极大程度地减轻人们标注训练数据所消耗的时间和精力,并与此同时获得与全监督方法具有相差不多的实验性能。为了提取有效的高层特征表达,本文提出了一种无监督特征学习机制,它通过利用深度波尔兹曼机(DBM)来获取地理空间物体的结构和空间模式。为了证明本文方法的有效性,本文建立了三个光学遥感影像数据集,他们包含具有不同空间分辨率和感兴趣物体的遥感影像。最终,在这三个数据集上的,本文做了一系列实验来综合分析模型中所考虑的各个模块,并验证所提出方法的有效性。