基于视觉感知的场景理解关键技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:huanghoubin102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于视觉感知的场景理解能够将视觉数据转换为具有语义的信息,使计算机获得描述与概括视觉图像场景的能力。其中,图像分割和目标检测是视觉场景理解中两大关键性技术,能够从一定程度上排除物体间的遮挡干扰,识别出场景内的物体并得到它们的位置。然而,在真实应用场景中,复杂光照、硬件等条件以及遮挡和视角变化等因素,极大影响了样本的质量。此外,由于部分场景较为复杂,难以获取到充足的样本,也对基于机器学习的视觉算法提出了严峻的考验。因此,研究面向场景理解的图像分割与目标检测方法具有重要的理论和现实意义。本文以视觉场景理解为研究背景,从图像分割与目标检测入手,对自然图像的无监督分割、RGBD图像的语义分割和图像目标检测及其应用进行研究,具体如下:·针对自然图像的无监督分割,基于关联图的分割算法中,关联图的混合原则通常依赖超像素的面积和相似度等经验论。但由于超像素特征在不同尺度上变化较大,难以根据特征中简单的“表征”准确定义局部和全局节点。这类算法中常采用的线性关联图,始终不能充分利用多尺度超像素间非线性的结构信息。为了解决上述问题,本文提出一种自适应混合关联图框架,能构造出具有高分辨力和非线性的混合关联图。首先,该框架利用基于多尺度超像素的子空间追踪算法,生成多尺度超像素的子空间保持。其次,根据这些子空间保持,该框架利用稀疏子空间聚类筛选出关联节点,以建立超像素间的关联,并自适应连接不同属性的关联图。然后,通过一种新的核谱聚类方法,该框架构建了一个核谱聚类图来研究这些关联节点之间的非线性关系。接着,构造每个尺度上所有超像素的邻接图,并更新关联节点处的核谱聚类图。最后,在不同尺度下建立混合关联图,并对混合图进行分割,得到最终的分割结果。该框架在BSD300,BSD500,MSRC和SBD数据集上进行实验,用以检验该框架的分割精度、效率和鲁棒性。实验结果表明,该自适应混合关联图具有良好的分割性能和较高的效率。·针对RGBD图像的语义分割,基于空洞/膨胀卷积的方法大多存在“网格化”问题,无法捕获到具有精确边界的小物体。而大部分编码器-解码器模型仅在编码器中处理成对的互补线索,而在解码器中却忽略了跨模态信息,易造成编码器和解码器的信息不均衡,训练时难以快速收敛。基于多任务学习方法的解码器大多在特定感受野的固定尺度下进行多任务蒸馏。然而,不同大小的感受野对多个任务的影响是不同的。为了解决上述问题,本文提出一种基于注意力机制的双编码器-解码器框架。该框架利用跨模态的互补信息,充分挖掘多任务学习中不同任务的关联性,结合迁移学习提升RGBD图像语义分割精度。首先,该框架在编码器中利用注意力多模态特征混合模块处理多层次的配对互补信息。接着,在框架中引入双分支解码器以有效地利用不同任务的相关性和互补性。在解码器的主分支中,该框架合并多个尺度不同的空洞卷积层提取多尺度上下文。该分支还受到另一个任务指引分支(如法向估计)的监督,以提高语义分割性能,来加快训练时的收敛速度。最后,通过任务迁移学习强化多任务关联性,本文提出一种更有效的两阶段训练方法,进一步提升语义分割的精度。在NYUDv2和SUN-RGBD数据集上进行实验,与最先进的RGBD语义分割方法相比,本文提出的方法具有显著优越性。·图像目标检测算法因光照变化、遮挡和硬件资源受限等问题,其精度和速度通常难以满足真实应用场景中实际检测需求。具体而言,早期的检测器大多依赖于传统的机器学习算法,但这些方法计算量较大,难以满足实时性和通用性等要求。目前基于卷积神经网络的目标检测方法都忽略了对光照变化进行针对性地分析。在真实应用场景中硬件资源受限的情况下,基于卷积神经网络的检测器,难以在保证检测精度的同时实现每秒30帧以上的实时检测速度,并且这些检测器的模型参数量也相对较大。针对真实应用场景中图像目标检测及其应用,本文提出一种端到端的轻量级检测框架,能够实现在硬件受限的条件下,具有实时检测速度且仍保持较高的检测精度。该框架包含一种轻量型骨干网络RFDNet,可以提高检测精度并降低计算成本。其次,利用RFDNet生成基于多尺度特征图的复合区域提议网络,并结合多层次位置敏感评分图和感兴趣区域池化层,以较少的计算冗余进一步提高检测精度。最后,在Image Net、Pascal VOC和MS COCO上验证轻量型骨干网络RFDNet的有效性。为了验证该轻量级检测框架在真实应用场景中的检测性能,本文在六个列车图像数据集上测试该框架的故障检测精度,效率和鲁棒性。实验结果表明,该框架能成功拓展到列车故障检测领域,实现了每秒38帧的实时检测,与最先进的检测器相比精度相当,但模型更小、效率更高。
其他文献
中微子振荡现象表明中微子拥有质量,这是超出标准模型的现象。深入进行对于中微子的研究,是开拓新物理领域的关键。江门中微子实验(Jiangmen Underground Neutrino Observatory,JUNO)主要目的是利用中微子振荡现象,测量反应堆中微子振荡能谱,从而确定中微子三种质量本征态的质量顺序。台山中微子实验(Taishan Antineutrino Observatory,TA
为了应对复杂多变的环境和内在需求,动物的动机行为(如位置移动和摄食行为)通常需要表现出形式的多样性和不同行为间的协调性来产生最优的行动策略。虽然目前对于位置移动或摄食行为的产生和调控机制有了长足的认识,但是对同一行为表现形式的多样性和行为间的协调缺少详细的机制解释。本论文中,我们使用具有实验优势的软体动物海兔来探究这些问题。由于目前对海兔位置移动环路的认知较少,我们将从解析海兔的位置移动模式发生环
准确描述复杂凝聚相体系的结构和光谱是理论化学的研究热点之一。然而,由于复杂体系的尺寸大、结构柔性、兼具复杂的化学环境,传统的量子化学方法难以对这些体系的结构和光谱性质进行描述,这是因为这些方法的计算量随着体系尺寸的增加呈幂次方增加。结合分子力学(molecular mechanics,MM)和量子力学(quantum mechanics,QM)的多尺度方法或低标度量子化学方法可以克服传统量子化学方
测量精度的提高不仅可以用来验证已有的物理学理论,而且可以推动新的理论和技术的发展。例如,通过位相测量的方式可以以亚波长的精度测量任意一个相对位移,该方法已被运用于宇宙学、纳米科技和医学等领域。由于受到散粒噪声及测不准原理等物理学本身特性的限制,经典测量能达到的精度为散粒噪声极限。探究如何利用量子资源来提高测量精度产生了量子度量这一新兴研究方向。经过几十年的研究,人们发现散粒噪声极限一般只有在特定相
铁锰矿物在自然界中分布广泛、种类繁多(如赤铁矿、针铁矿、水铁矿和菱锰矿、软锰矿、黑锰矿等)。由于锰和铁离子半径相似,在铁、锰矿物中普遍存在不同程度的铁锰类质同像替代现象。铁锰矿物作为表生地球化学过程中最为活跃的矿物类型,深度参与重金属的固定、有机污染物降解、微生物风化等环境过程。在这些环境过程中,矿物晶面作为环境物质接触和反应的场所,其类型和性质决定了矿物的表观反应性,类质同像替代对矿物晶面反应的
共振态广泛存在于自然界中,例如,在分子,原子,核物理中都有它的踪迹。另外,在散射实验中,共振现象也被认为是极其引人注目的。此外,共振态在许多物理现象的形成中起着至关重要的作用。例如,晕,巨晕,幻数的消失等。本文主要是通过复标度格林函数(CGF)方法以及与相对论平均场(RMF)理论结合的复动量表象(CMR)方法即RMF-CMR方法来研究奇特核中的单粒子共振态,以此说明共振态对核物理,尤其是对核结构方
1995年,人类在主序恒星周围发现第一颗系外行星51 peg b,自此开启了系外行星的观测和研究。至今共有超过4000颗系外行星已经被确认,还发现了数千颗有待进一步确认的行星候选体,这些行星系统分布在我们银河系中一个很广的距离(kpc量级)范围内。通过对观测数据进行统计研究,已发现了很多主序(类太阳)恒星周围行星系统的特征及其和宿主恒星(如质量,金属丰度等)的相关性。但目前对于行星系统和宿主恒星所
功能型金属有机框架材料(MOFs)是近年来材料科学家重要的研究对象之一,而氧化还原活性又赋予MOFs材料新的性能。MOFs材料的氧化还原活性,一般是由氧化还原活性的金属、配体得到,或者是后合成修饰引入氧化还原活性的客体分子来实现。在本论文中,我们的工作主要围绕氧化还原活性的配体四硫富瓦烯四苯羧酸(H4TTFTB),以及与该配体等瓣相似的镍的二硫烯四苯羧酸([Ni(C2S2(C6H4COOH)2)2
颅脑损伤后免疫抑制治疗和免疫耐受治疗受到学术界关注,这些研究的共同生理和解剖基础是颅脑损伤导致血脑屏障破坏和脑组织内环境发生改变,进而引起脑组织抗原被机体免疫系统识别引发自体免疫攻击行为,过度的免疫损伤加剧继发性炎症反应,进一步影响患者脑恢复进程。免疫抑制剂或多或少存在药物昂贵、安全谱窄、患者整体免疫力下降招致感染等问题。借鉴免疫耐受理论,口服自体脑抗原(来源于清除脑挫裂伤灶的坏死脑组织、引流的脑
不对称双子表面活性剂是具有两个不同烷基链或亲水基的一类特殊的双子表面活性剂,与对称双子表面活性剂相比,具有许多优点,如更低的临界胶束浓度(cmc)和更强的疏溶剂效果。本文制备并表征了同碳数的不对称、对称双子表面活性剂(22-6-6和14-6-14)、不同间隔基的不对称双子表面活性剂(22-s-6,s=2、3和6)及其改性蛭石(Vt)或Si O2纳米片层(Si NSs)。以对氯苯酚(PCP)、苯酚(