【摘 要】
:
面对现实生活中爆发式增长的图像数据,基于计算机视觉的图像分析备受人工智能等领域学者的广泛关注。其中,图像视觉关系理解是图像分析的重要分支,旨在挖掘图像内容中所蕴含的视觉关系,是诸多实际应用,比如服装推荐、智能机器人、自动驾驶等,所需的基础技术之一。对视觉关系理解有需求的图像是多样的,根据图像所包含物体的个数,可将图像大致分为两类:简单图像和复杂图像。简单图像往往包含单个物体,且其背景较为干净;复杂
论文部分内容阅读
面对现实生活中爆发式增长的图像数据,基于计算机视觉的图像分析备受人工智能等领域学者的广泛关注。其中,图像视觉关系理解是图像分析的重要分支,旨在挖掘图像内容中所蕴含的视觉关系,是诸多实际应用,比如服装推荐、智能机器人、自动驾驶等,所需的基础技术之一。对视觉关系理解有需求的图像是多样的,根据图像所包含物体的个数,可将图像大致分为两类:简单图像和复杂图像。简单图像往往包含单个物体,且其背景较为干净;复杂图像则通常包含多个物体,且其背景较为庞杂。由于不同种类图像所包含信息的不同,针对其的视觉关系理解需求也有所不同。具体而言,针对简单图像,我们往往侧重于对图像间视觉关系的理解(例如,服装搭配领域的图像间兼容关系理解)。而针对复杂图像,我们则需要更多地关注图像内的视觉关系分析,对图像所含物体之间的空间关系和语义关系进行理解(例如,自动驾驶应用中对图像内物体间的空间关系的理解)。因此,对于不同复杂程度的图像,需要针对性地从不同角度对图像视觉关系进行分析,以适应具体的实际需求。为此,本文系统全面地从图像间和图像内两个角度,依托图像间兼容关系建模和图像内场景图生成两个实际应用,对视觉关系理解任务进行了深入的研究。虽然现有工作在这两个实际应用任务上已经取得了一定的进展,但是这些工作还存在一定的不足。具体而言,现有图像间兼容关系建模的相关工作过度依赖标记数据、缺乏对领域知识的利用,可解释性较差、难以满足用户的实际需求;而现有图像内场景图生成的相关工作对相似关系谓词区分能力差、且头部关系谓词过度去偏,无法准确生成具有信息量和实际应用价值的场景图。为了解决上述问题,本文分别开展了如下四个方面的研究工作:1)基于知识增强的图像间视觉关系理解探究了概率形式的领域知识对深度神经网络的指导作用,设计了一种概率知识蒸馏的服装图像间兼容关系建模模型。该模型能够自动提取并结构化大量的领域知识,根据共现概率为不同领域知识分配不同的置信度,并通过知识蒸馏框架实现领域知识对深度神经网络的指导和增强。该模型一定程度上降低了神经网络对数据的依赖,而且提升了服装图像间兼容关系建模的性能。此外,本文探究了不同来源领域知识对深度神经网络的指导作用的区别。2)基于模板引导的可解释图像间视觉关系理解探索了通过挖掘潜在属性模板增强模型可解释性的新思路,设计了一种基于模板引导的可解释服装图像间兼容关系建模模型。该模型首先利用属性分类器得到了服装图像维度级可解释的语义属性表示,然后利用非负矩阵分解挖掘属性交互模板,进而实现了对服装图像间兼容关系建模结果的解释以及提供可替换的服装方案。该模型通过贝叶斯个性化排序算法巧妙地将服装图像间兼容关系建模和属性兼容关系模板的分解联合,使二者互相促进。3)基于分而治之的图像内视觉关系理解提出了利用关系谓词的相关性简化关系谓词预测任务的策略,设计了一种基于分而治之的图像内场景图生成模型。该模型通过模式-谓词相关性挖掘算法揭示了关系谓词之间的相似关系,将关系谓词预测划分为多个子任务。该模型利用多个特定关系谓词预测器区分相似关系谓词的细微差别,利用贝叶斯个性化排序算法促进头部和尾部相似关系谓词之间的两两区分,从而提高模型对相似关系谓词的区分能力。4)基于双偏互补的图像内视觉关系理解研究了利用互补思想统一有偏和无偏两类场景图生成模式优势的策略,设计了一种基于双偏互补的图像内场景图生成模型。该模型设计了一种面向头部的软正则化方法,利用有偏图关系谓词预测中头部关系谓词预测优势,去弥补无偏关系谓词预测中头部关系谓词预测的不足,解决无偏图像内场景图生成方法中头部关系谓词过度去偏的问题,以实现头部和尾部关系谓词之间的预测平衡。
其他文献
高同型半胱氨酸加重自发性高血压大鼠动脉损害的机制研究研究背景流行病学研究发现,高血压合并高同型半胱氨酸血症(HHcy)(简称H型高血压)在我国高发,约占高血压患者总数的75%。并且,H型高血压患者心脑血管事件发生率远高于非HHcy高血压患者。HHcy被定义为同型半胱氨酸(Hcy)水平超过15μmol/L,被公认为21世纪的“新胆固醇”,是心脑血管疾病的独立危险因素。然而,HHcy促使高血压患者心脑
<正>《义务教育化学课程标准(2022年版)》(以下简称“义教课标2022年版”)强调改进教学方式、优化教学活动,实现知识结构化以达成学科核心素养培育的目标。知识结构化建构,强调知识要素的整合并形成层次结构、从具体知识抽提认识思路乃至基本观念的统摄关联。如何促进知识结构化建构?这是化学教师需要研究的关键问题之一。为此,我们以初中化学“质量守恒定律应用”的总复习教学为例开展循证实践。
增材制造在高几何复杂度模型的中具有巨大的优势,可快速实现许多传统工艺无法完成的结构,目前增材制造在航空航天、医疗、建筑等人类生产生活的各个领域均有应用。在增材之中的从最初的模型设计,到物理性能分析,以及最终的打印路径规划中均涉及到大量的几何问题。其中的关键问题包括如何在保证结构强度的同时节省材料的使用从而实现轻量化设计;如何高效表达具有复杂几何细节的高精度模型;以及如何在高保真地快速生成制造文件。
背景据世界卫生组织统计,肺癌的患病率和死亡率均位于恶性肿瘤之首,以立体定向放射治疗(SBRT)为代表的高精度放疗在肺癌治疗的多个阶段发挥重要作用。高精度的放射治疗需要高适形度的剂量施照,呼吸运动引发的肿瘤运动是导致靶区变异的重要因素,统一的外扩边界可能导致放疗脱靶或者较大的放疗损伤。包含呼吸运动信息的四维CT(4DCT)能够较好显示个体化的肿瘤运动,在线锥形束CT(CBCT)扫描可以获得在线内靶区
研究背景及目的胆管癌(Cholangiocarcinoma,CC A)是一种发生于胆管的高度侵袭性肿瘤,按解剖学分类,由肝内型胆管癌(iCCA)、肝门部胆管癌(pCCA)和远端胆管癌(dCCA)三种亚型组成,由于其恶性程度高,预后极差。世界范围内胆管癌的发病率较低,故目前对其研究较少,但亚洲地区尤其中国发病率有上升趋势,且胆管癌由于发病隐匿,常规体检不易发现,故发现多属晚期,根治性手术率低,即使行
非霍奇金淋巴瘤(Non-Hodgkin lymphoma,NHL)是一组具有高度异质性的淋巴组织恶性增殖性疾病,是血液系统最常见的恶性肿瘤之一。弥漫大B细胞淋巴瘤(Diffuse large B-cell lymphoma,DLBCL)是最常见的侵袭性NHL,占所有初治NHL的30%-40%,在形态学、生物学、免疫表型、遗传学及临床表现等方面均表现出高度的异质性。随着以利妥昔单抗为代表的新型分子靶
研究背景:阿尔茨海默病(Alzhermer’s disesase,AD)是引起痴呆最常见的类型,其病理特点主要是过度磷酸化的tau蛋白堆积形成的细胞内神经纤维缠结和淀粉样蛋白β(Amyloidβ,Aβ)组成的细胞外淀粉样斑块沉积。有毒性的Aβ肽是由淀粉样前体蛋白(amyloid precursor protein,APP)经过β-和γ-分泌酶连续切割产生的。尽管目前针对Aβ开发的药物尚未成功,但淀
研究背景目前,颈动脉硬化斑块是缺血性脑疾病的重要病因,其在全球的患病率逐渐升高,已经引起了越来越多的关注和研究。识别症状性斑块对于病人的治疗和预后有着至关重要的作用。随着技术的发展,人们研究了症状性斑块与狭窄程度、斑块成分等的相关性,并且很多学者也研究了先进的成像技术在探究症状性颈动脉斑块方面的应用。近几年,血管周围脂肪对动脉粥样硬化斑块的形成和促进的观点引发了新颖性、创新性的关注,并且其可以无创