知识驱动的行为理解

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:uilyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于视觉的行为理解是一个重要的人工智能问题,但即使在蓬勃发展的深度学习时代,视觉系统理解行为的能力还远达不到应用需求。因此,研究视觉智能以实现高效、鲁棒的行为理解具有巨大的价值。不同于传统的深度学习范式,在本文中,我们旨在通过基于知识驱动的视觉推理来改善行为理解。首先,我们着重研究人-物交互(Human-Object Interaction,HOI)的检测。HOI 是一个组合学习问题,其长尾数据分布特点给深度学习范式带来了巨大挑战,前沿算法在HOI上的识别性能也远低于纯身体行为(跑步、行走等)。因此,我们基于HOI的组合特性知识提出了三种全新的识别算法,具体内容如下:首先,我们研究了 HOI组合的交互性知识,即人与物之间是否存在交互的二值信息。我们提出了一种交互性学习网络,它可以从多个HOI数据集中学习可迁移且通用的交互性知识,并在推理HOI类别前执行非交互性抑制,从而主动地过滤非交互的人体-物体配对。另外,我们还进一步利用人体实例和身体部位特征来学习层次化的交互性知识,从而提取出更深层的交互性模式。在大型HOI检测数据集上,交互性学习可有效提升HOI检测的性能,并具有良好的泛化性。其次,HOI理解的基本单元是人-物组合,它是由人体、物体和隐式交互动词组成的。与直接将像素映射到HOI语义的方法不同,我们提出了一种以解析方式处理HOI视觉模式的新方法:集成分解网络。我们首先将交互的人-物组合分解为独立的人体、物体,以消除他们间的动词语义;之后,独立的人体和物体将被再次被整合为交互组合,以恢复他们间的动词语义。在两个互逆过程中,相同HOI类别的组合间还可以进行人体、物体实例互换。经以上过程,就可以在分解与合成函数空间内表示隐式动词的语义。在广泛使用的HOI检测基准上,集成分解网络展现了优良的性能,并对稀有HOI分类效果显著。最后,除了 2D信息(人、物的外观和相对位置)外,我们进一步提出了基于3D信息的HOI检测方案。我们首先利用单视图人体重建获取细粒度的3D人体结构,并参考2D人、物的相对空间位置和物体类别先验估计出物体的3D位置和大小。然后,我们提出了一个联合学习框架和跨模态一致性目标函数以学习联合HOI表征。为了更好地评估HOI检测模型对2D歧义性的处理能力,我们还提出了一个新的基准Ambiguous-HOI。在大规模HOI测试基准和Ambiguous-HOI上,上述方法展现出了显著的抗歧义能力。在研究了 HOI组合的特性知识后,我们回到一般意义下的行为理解问题,即从图像或视频中识别纯身体行为、人-物交互、人-人交互。由于传统模式识别范式(直接学习从图像空间到语义空间的映射)往往在大规模行为理解任务上存在性能瓶颈,本文进一步对行为理解范式进行了反思,并提出了一种新范式:基于知识和推理的行为理解。下面我们分别介绍物体和人体细粒度知识:第一,物体概念理解对人-物交互理解有重要意义。虽然物体识别已取得很大进步,但目前的视觉系统仍难以学习细粒度物体知识。因此,我们提出了一项新颖的任务:物体概念学习,以驱动物体知识理解的发展。它要求视觉系统不仅要推理出物体的可供性,还要同时给出推理依据:什么样的物体属性使该物体具备这些可供性。为此,我们建立了一个具有实例级标注的大型物体知识库,包含了物体类别、属性和可供性标注。在方法上,针对属性识别,我们提出了一种基于属性-物体变换对称性和群论的方法,它基于隐空间中动态的物体特征变化来识别属性,并在零样本组合学习任务中达到了较好的性能。然后,我们分析了类别、属性和可供性间的因果关系并提出了物体概念推理网络,它利用因果干预操作弱化了类别在学习中引入的偏差,并可在考虑属性的同时有效地估计可供性。最后,我们就可将学习到的细粒度物体知识用于HOI检测,并显著提高了多个先进HOI模型的性能。第二,我们发现,因为物体图像和行为图像数据之间存在巨大差异,类似物体识别的直接映射方案很难在行为理解上也取得成功。因此我们从人体细粒度知识出发提出了一种新范式:首先将像素映射到行为原语空间内,然后再利用可解释的逻辑规则来编程原语以推断出图像中的行为。为提供一个具有丰富表征性的原语空间,我们建立了一个大型行为原语知识库,包含了超过两千六百万的人体局部状态标注,它涵盖了日常的大多数行为类别;此外,我们还收集了人类对原语进行编程的先验逻辑规则,同时使用归纳-演绎策略自动挖掘类似的规则;最后,我们提出了一种新型的神经-符合推理引擎以执行基于知识和规则的推理。在实验中,上述新框架展现出了超过传统直接映射方法的泛化能力。
其他文献
钢筋混凝土(RC)结构的连续倒塌会造成毁灭性的影响,因此其在近二十年间吸引了众多学者的关注。本文针对钢筋混凝土框架结构的失效、承载力机制以及影响其抗倒塌承载性能的关键因素开展了系统的文献综述。压拱效应机制(CAA)及悬链线机制(CA)被认为是在钢筋混凝土梁柱子结构在小变形和大变形状况下的两种主要荷载重分布机制。基于文献中获取的数据,本文分析了跨高比和纵向钢筋配筋率两个核心影响参数并建立了数值方程。
学位
合作行为广泛存在于自然系统与人类社会中,并且对种群进化与社会繁荣起到重要促进作用。但是,合作行为往往伴随着成本。合作者以降低自身收益为代价提高整体收益。这与逐利个体追求收益最大化的目标相违背。因此需要额外的合作机制来调节个体收益与整体收益的关系,即驱动个体在努力最大化自身收益的同时也实现整体收益的最大化。本文针对以个体、群体和交互环境为作用对象的合作机制,分别构建不同种群状态与策略复制方程,研究了
学位
滑坡是我国主要的地质灾害,严重影响国家经济建设和社会发展。由于物理力学过程的复杂性、影响因素的多样性等原因,现有滑坡分析方法存在明显的缺陷和不足,主要包括:(a)边坡稳定性分析的强度折减法采用拉格朗日有限元,网格畸变问题造成数值不收敛的失稳判定准则得到的安全系数不可靠;(b)对于渗流-应力耦合作用显著的降雨诱发滑坡,现有研究将失稳前后两阶段完全割裂并独立分析,未考虑物理状态发展的连贯性和一致性,(
学位
基于被动式质量和惯性元件的装置,如调谐质量阻尼器(TMD)和调谐粘滞质量阻尼器(TVMD)的优化设计中,需要将装置的固有频率调谐到靠近控制结构的基频。因此,优化设计中引入一种可以基于激励电流频率来调整其固有频率的装置可以显著地增加阻尼特性。优化设计将可以去除被动式装置的失谐效应,并能在更大的频率范围内实现高效振动控制。本文提出了两种新型的振动控制装置,该装置能够基于外部激励的频率来调整和控制其固有
学位
现代的测量技术中,光学相位测量由于其精度和可扩展性被广泛的用于军事、民用以及科研之中。随着科学技术的发展,人们对于相位测量的精度提出了更高的要求。在理想情况下该精度受限于散粒噪声。对于采用了量子资源比如压缩态、纠缠态等的量子测量,精度极限可以达到甚至超过海森堡极限。但是在实际应用中,影响相位测量精度的决定性因素往往是测量方法或是测量设备引起的各类技术噪声。尤其是微小相位的测量,会被淹没在这些技术噪
学位
现代战场电磁环境日趋复杂,对于雷达的探测能力以及目标识别与跟踪能力提出了更高要求,雷达系统朝着大带宽、分布式、多频段以及全相参等体制发展。雷达射频前端作为连接射频信号和基带信号的桥梁,完成信号发射和接收的关键任务,是雷达系统的核心部件之一。基于微波光子技术的雷达射频前端具有传输损耗小、频谱资源丰富、抗电磁干扰等特性,能够弥补传统射频前端器件的部分不足,在频段选择的灵活性、宽带信号处理能力以及分布式
学位
细粒度图像识别,又被称作子类别图像识别,是近年来计算机视觉、模式识别等领域一个非常热门的研究课题。其目的是对粗粒度的大类别进行更加细致的子类别识别,但由于子类别间细微的类间差异和较大的类内变化,较之普通的图像识别任务,细粒度图像识别挑战性更大。细粒度图像识别研究,从提出到现在,已经历了一段较长时间的发展。早期的基于人工特征的算法,基本都采用局部特征编码等方式来获取细粒度图像的特征表示,但由于特征的
学位
第二代高温超导带材以其在高磁场下高载流能力,高转变温度,高不可逆场等优势,在多种电学场景下具有较高的商业价值和应用前景。基于第二代高温超导带材的商业开发,主要集中在超导限流器、超导电机和储能装置等领域。第二代高温超导带材应用前景广阔,商业价值巨大。随着超导材料的广泛应用,高温超导体的力学研究越来越成为制约着超导科学技术应用推广的因素。高场工况下超导带材受到的洛伦兹力和环氧树脂浸渍下超导线圈受到的热
学位
无论是从经济还是从可靠性的角度来看,电力系统的暂态稳定评估(Transient Stability Assessment,TSA)都起着重要的作用。电力系统实际运行中需要能够保持其暂态稳定,并能够承受各种干扰,以便为用户提供可靠的服务。在当今的高维/时变系统中,由于输电系统常常运行在物理极限附近,维持系统安全稳定性成为了一个挑战。因而,在线暂态稳定评估的目的不再仅针对某一组特定的“预先检验的运行点
学位
电力设备中广泛应用的绝缘气体介质六氟化硫(SF6)具有强温室效应,研制环保型绝缘替代气体对于推动实现我国“碳达峰、碳中和”战略目标具有重要意义。目前,由于环保型绝缘气体液化温度较高,必须与缓冲气体混合后才能在电力设备中应用。研究三元混合SF6替代气体的绝缘性能和协同效应,可为替代气体绝缘介质的选取提供理论支撑,进而得到既满足电力设备绝缘和运行温度要求又环保安全的替代方案。论文通过玻尔兹曼方程计算了
学位