【摘 要】
:
随着人工智能的发展,计算机视觉技术被广泛应用到各行各业。而目标的精确定位作为其中一个基础性的工作,其精度和效率的高低对于整个领域发展起着举足轻重的作用。在二维和三维场景中,目标的精确定位主要涉及两个关键性的任务,即图像目标分割和图像目标测距。其中图像目标分割主要关注于二维场景中的精确定位,而图像目标测距则是三维场景定位的核心手段,针对这两个基础性任务进行性能提升将极大促进目标精确定位的进步。基于此
论文部分内容阅读
随着人工智能的发展,计算机视觉技术被广泛应用到各行各业。而目标的精确定位作为其中一个基础性的工作,其精度和效率的高低对于整个领域发展起着举足轻重的作用。在二维和三维场景中,目标的精确定位主要涉及两个关键性的任务,即图像目标分割和图像目标测距。其中图像目标分割主要关注于二维场景中的精确定位,而图像目标测距则是三维场景定位的核心手段,针对这两个基础性任务进行性能提升将极大促进目标精确定位的进步。基于此,本文主要对图像目标分割和测距这两个任务展开研究,探究其在常见的视觉系统中的性能提升和应用落地问题。现阶段,常见的视觉系统主要是单目视觉系统和双目视觉系统。在这两种系统中,图像目标分割和测距可分为RGB图像分割,RGB-D图像分割,单目测距以及双目测距四个子任务。目前,这些子任务均面临着严峻的挑战制约其发展。具体来说,在RGB图像分割中,基于深度学习的分割模型往往需要依赖大量的人工标注;在RGB-D图像分割中,经过训练获取的RGB-D分割模型只有在具备深度信息的条件下才能对RGB图像精确分割;在单目测距中,基于深度学习的测距方法目前仍主要依赖RGB图像和深度信息之间的病态拟合;在双目测距中,近距离场景的测距应用落地仍需进一步的实践,远距离场景的视觉测距问题依然没有成熟的解决方案。针对上述这些问题,本文在大量调研的基础上,利用弱监督语义分割、知识蒸馏、深度先验引入以及软硬件优化改进等手段提出了对应的解决方案,主要工作如下:(1)在RGB图像分割中,提出了一种面向弱监督语义分割的空间相似性引导学习方法。目前,弱监督语义分割是解决分割模型依赖大量人工标注的主要手段,它主要利用预测类激活图生成像素级标签以实现对分割模型的训练和测试。而初始的类激活图往往只能粗略的定位目标,难以满足分割模型对标签的精度要求,因此类激活图的精度优化便成了弱监督分割中的核心问题。针对这个问题,该方法首先提出了一种自监督多视图聚类策略以无监督图像分割的方式获取描述像素间空间相似性的伪标签,接着采用权重融合的方式将该伪标签和描述语义相似性的亲和矩阵融合为概率转移矩阵。基于该矩阵,随机游走的策略被用于类激活图的优化,以此实现对弱监督语义分割的性能提升。(2)在RGB-D图像分割中,提出了一种面向RGB-D语义分割的深度去依赖蒸馏方法。RGB-D语义分割是RGB-D图像分割任务的主流研究方向,但现有的RGB-D语义分割模型往往在具备深度信息的条件下才能对RGB图像进行精确分割。因此,如何使得RGB-D语义分割模型在没有深度的条件下对RGB图像进行精确分割是一个极具挑战的问题。为了解决这个问题,该方法充分应用知识蒸馏策略解决模型的深度去依赖。首先,基于同一目标具有相似深度的先验,一种深度注意力卷积被用于构建教师网络以从RGB-D图像中获取充分知识,接着利用深度注意力卷积和通用卷积的结构一致性,参数共享以及损失蒸馏的策略被用于将教师网络获得的知识迁移到由通用卷积组成的学生网络。最后利用学生网络,仅以RGB图像作为输入便可获得较高精度的分割结果。由于该方法主要优化卷积操作,因此可以被应用到任何基于卷积神经网络的分割网络。(3)在单目测距中,提出了一种面向单目深度估计的稀疏深度稠密化方法,将稀疏深度点作为先验信息引入到单目深度估计框架用以修正现有单目深度估计方法输入和输出之间的病态映射问题。具体来说,该方法将单目图像和稀疏深度点作为网络模型输入,利用稀疏深度和图像之间的对应关系实现了更加精确的单目深度估计。首先,基于同一类别目标具有相似深度的先验,一种深度稠密图被构建以对稀疏深度信息进行稠密化,同时一种深度误差图被设计用于估计深度稠密图的误差。然后该方法利用多尺度融合的思路构建了一种多维融合的单目深度估计网络。接着深度稠密图,深度误差图以及单目图像被作为深度估计网络的输入进行最终的训练和测试,实验结果表明所提出的方法可以实现更加精确的深度估计。(4)在双目测距中,对于近距离场景,主要研究了双目测距的应用落地问题,以机器人机械臂直梯按键为应用场景,提出了一种基于双目测距的机器人直梯按键操作方法。首先,利用双目测距技术在近距离场景的精度优势对目标按键进行精确定位,接着利用机器人机械臂各个关节角度和机械臂末端位置的对应关系构建机械臂运动模型,基于测距结果和机械臂运动模型,机器人机械臂可以准确完成自主按键任务。对于远距离场景,主要围绕远距离测距任务展开研究。现有的双目测距方法相对于单目测距具有较大精度优势,但仍无法实现较好的远距离测距,目前仍没有较为成熟的远距离测距方案。为解决该问题,提出了一套基于深度先验和红外传感的远距离测距方案,该方案从粗略的稠密深度估计和精细的目标测距两方面考虑,将语义线技术和深度插值估计相结合实现稠密的深度估计,通过将单目相机和搭载红外传感设备的旋转云台相结合实现目标的跟踪测距任务。
其他文献
随着智能终端设备的发展,以获取用户隐私信息和敏感数据为主要目标的恶意应用成为移动智能终端用户面临的主要威胁。移动恶意应用的检测方法主要分为基于静态分析、基于动态分析和基于网络行为的分析方法。基于静态分析的方法重点关注恶意应用的代码层面和可执行文件的分析,该方法无需运行应用,难以应对代码混淆技术。基于动态分析的方法针对应用程序运行过程中产生的事件和行为进行分析,此过程需要将恶意应用在虚拟设备或者真实
开放共享已经成为大数据时代科研数据服务的发展趋势。国内外现有药学相关共享数据服务主要采用关键词字符串匹配方式检索,检索结果只是依据字符串编码相近或相似,无法从语义信息、分子结构特征等角度提供相似或相近检索,无法提供包含更深层次信息的搜索结果。从语义信息、分子结构特征等多维度研究挖掘数据之间的深层次联系,提供多维度数据检索服务,更有助于提升检索结果的准确度、深度和广度。论文主要从文本语义相似、分子结
图像分割是根据有关特征对图像的不同区域进行划分,精确的分割对图像语义分析具有重要的意义。鉴于图像分割和基于划分的聚类方法所具有的共性,以及图像分割中实际存在的区域边界模糊化的问题,模糊聚类方法目前已成为实现图像分割的一类有效方法。但传统的模糊聚类方法由于只考虑了图像的像素强度对分割结果的影响,比较容易受到噪声影响,从而造成分割结果的不准确。引导滤波(Guided Filter,GF)方法由于可以有
引文网络是通过论文之间的引用和被引用关系构成的复杂网络,描述研究者的成果、科学领域的发展和学科间的关系。论文间的引用关系,揭示相近领域下相关的研究内容。引文网络包含多个领域的研究成果,作为学术研究中重要的知识宝库和科学研究的重要介质。引文网络中引用论文与被引用论文的关系体现内容的相关性和知识的传递,引用关系在时间上具有单向性。由于论文引用关系是单向的、稀疏的,如何完善现有论文用网络变得至关重要。近
“日盲”紫外真空探测技术一直在军事领域与民生领域发挥着重要的作用,包括导弹告警、紫外通信、火灾检测和电晕检测等。为了进一步提高“日盲”紫外真空探测器件的性能,β-Ga2O3作为新兴的第四代超宽禁带半导体,近年来不断被研究者们进行更加深入的研究。β-Ga2O3具有4.4~4.9e V的宽禁带,高达~8MV/cm的高击穿电场强度,另外具有稳定的化学性质,这些优势使其在光电器件和高频高功率电子器件中广泛
随着互联网、大数据等技术的飞速发展,人们越来越多地在网络平台上发表自己的观点和意见,这些观点和意见是以文本信息为数据载体的。因此,研究这些文本信息的情感倾向,有着极高的商业价值。文本情感分析就是对含有情感色彩的主观性文本进行分析,并挖掘出其蕴含的情感倾向的过程。起初,研究学者使用基于情感词典与规则的研究方法以及基于传统机器学习的研究方法来完成文本情感分析任务,尽管这些方法取得了良好的效果,但这些方
作为当代移动通信发展的重要组成部分,多载波调制技术对提高通信系统的传输速率、频带利用率和抗多径干扰能力发挥着不可忽视的作用。与传统的多载波调制技术相比,正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统的频谱利用能力更加出色,并且OFDM系统可以有效地抵抗多径效应带来的码间干扰和信道间干扰问题。OFDM系统虽然与传统的多载波调制技术相
网上购物的虚拟性特征加剧了信息不对称和“柠檬市场”问题,在线声誉机制的建立对促进良好信任关系建立、提高市场效率,营造有序在线市场竞争环境有重要意义,是营销、服务和消费者行为领域重要研究部分。目前多数学者对在线声誉的研究主要集中在在线企业声誉和在线零售商声誉上,采用数据挖掘方法对商品声誉进行研究时大都关注在线评论效价单一维度或在线评论文本总体粗粒度情感倾向评估,对商品由一系列属性组成的关注不够,消费
2019年12月以来,2019新型冠状肺炎在全世界的大范围传播造成了严重的传染病扩散危机,导致全世界人民面临严重的健康危机。这种传染病具有传染性高、变异性强等特点,现在已经在超过200个国家肆虐。在疫情的高风险地区,新冠肺炎患者的检测十分受阻,这主要是由于医疗设施较少以及检测试剂的短缺。通过CT图像来检测早期的新冠肺炎是现在流行的一种方法,也是当下研究的热点。由于新冠肺炎的CT表现有自己的特点,其
自媒体时代,每个网民都可以通过网络等途径向外发布事实和新闻。为了博取公众的眼球,假新闻事件层出不穷,不仅会误导不明真相的读者,而且会造成恶劣的社会影响。虚拟社交网络空间不仅成为传播虚假信息、恐怖思想和网络谣言等网络违法行为的中心,还成为某些政治和特殊利益集团进行恶意社会操纵行为的渠道和工具。处在大数据时代,仅靠人力是不可能有效遏制假新闻的泛滥,因此亟需有效的智能检测方式来帮助人们识别假新闻。当前对