【摘 要】
:
显著性检测也被称为显著目标检测,其目的是通过智能计算和理解,将图片或视频中人眼感兴趣的部分分割出来并标记为高亮。由于本任务的结果在一定程度上模拟了人类的注意力机制,可以作为先验信息在许多其他的计算机视觉任务中应用,因而本任务受到了越来越多学者的关注。近年来,得益于深度学习技术的应用,显著性检测任务得到了快速发展。以RGB图像输入的全监督显著性检测任务为基础方向,在各种不同数据场景下的显著性检测细化
论文部分内容阅读
显著性检测也被称为显著目标检测,其目的是通过智能计算和理解,将图片或视频中人眼感兴趣的部分分割出来并标记为高亮。由于本任务的结果在一定程度上模拟了人类的注意力机制,可以作为先验信息在许多其他的计算机视觉任务中应用,因而本任务受到了越来越多学者的关注。近年来,得益于深度学习技术的应用,显著性检测任务得到了快速发展。以RGB图像输入的全监督显著性检测任务为基础方向,在各种不同数据场景下的显著性检测细化任务被陆续提出。本文主要对不同数据场景下基于深度学习的显著性检测方法进行研究,分别针对本任务的基础数据方向(RGB输入全监督场景)和两个细化数据方向(RGBD场景和弱监督场景)提出了有效的深度学习模型和训练测试的框架。在基础方向方面,本文基于多级语义信息融合的思想将相邻大小的特征图像中的信息进行融合提升网络的识别能力,同时融合众多具有相同大小的特征图像来细化显著性物体的边界,最终通过分组递归的方式逐步优化最终结果。为提升网络在有空间信息的复杂场景下的效果,本文对利用场景深度信息提升网络结果的方法进行了研究。在复杂但有深度空间信息的场景下,本文提出将相对深度和绝对深度结合来帮助网络提升效果。本文首先通过以门控单元为基础的绝对深度模块将绝对深度信息融入到RGB特征,之后本文利用特征点之间的相对距离构建图,通过空间域图网络将相对深度信息引入信息流,帮助网络进一步细化结果。上述全监督方向的显著性检测方法依赖于精细标注的显著性真值,而真值图需要耗费大量的时间和人力。同时部分场景真值的难以获得也限制了算法的泛化能力。为降低真值获取的代价,便于网络在不同场景下的训练,提升算法的泛化能力,本文对以图像类别标签作为弱监督信息训练显著性检测模型的方法进行了研究。本文提出了一种基于对比度的全局池化方式来帮助网络更好地通过类别标签获得显著性伪真值,之后将图像以超像素为节点转换为图,提出了一种空间图网络进一步优化伪真值。最后为摆脱网络对超像素分割的依赖,以伪真值为监督信息训练了一个相应场景下的全监督模型。上述三种方法均在多个数据集上进行了测试,并与相应数据场景下的方法进行了实验对比,取得了较为满意的结果。同时,每种方法中的消融实验也证明了本文提出的模块的优越性能,进一步证明了本文方法的有效性。
其他文献
虹膜识别由于具有准确性、稳定性、非接触性等特点而成为最受关注的安全识别认证方法之一。该方法利用虹膜丰富的纹理信息对个体进行身份验证。由于深度卷积神经网络具有强大的特征提取能力,本文基于深度学习的方法分别设计了应用于虹膜识别任务的虹膜检测与分割以及识别的架构。在对虹膜图像进行识别前,首先要对人眼图像中的虹膜区域进行检测与分割。不同于以往使用Adaboost级联分类器等传统方法对虹膜进行检测,再利用霍
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术因其在频率选择性衰落信道中的优异表现,在第四代移动通信技术中扮演了重要的角色。但是作为一种多载波传输方案,OFDM符号与生俱来的高峰值平均功率比(Peak-to-Average Power Ratio,PAPR)问题会导致严重的非线性失真。传统的PAPR抑制算法性能有限,且会造成一定的
现如今物联网正在快速发展,无线数据流量的需求随之迅猛增长,多种无线信号,如WiFi、蓝牙、毫米波等充斥在人们的工作和生活空间。无线信号除了可以进行通信外,还可以被用来实现感知覆盖范围内目标信息状态,如位置、速度、手势、步态、生命体征等。目标的不同状态对无线信号的反射、折射、散射等现象会产生不同的影响,无线感知技术通过揭示和分析目标对周围无线信号的影响模式,实现不同的感知任务。凭借其不需携带任何设备
深度神经网络在图像分类、识别等领域取得重大进展。但深度模型的“端到端”决策逻辑和工作机制,使其成为“黑盒”模型,不被人类用户理解。人们开始研究可解释性技术,期望以可理解的方式解释这些模型,因此对深度神经网络的工作原理进行准确地解释是很重要的。然而,一个被操纵的解释可能会削弱人类用户对解释的信任,进而误导人类用户不相信一个可靠的网络。因此,设计有效的攻击方法来模拟现实世界中各种可能的威胁,对于评估现
Web2.0技术的进步使得在线知识社区成为用户之间生产和分享知识的大规模协作平台。而随着人工智能(Artificial Intelligence,AI)技术的不断发展,在线知识社区正逐渐由人人协作转变为人与机器人协作进行知识生产。然而,虽然当前社区中的机器人已经成为的重要协作主体之一,但对于人机协作的内在影响机制的研究仍缺少足够的重视,此外,当前关于人机协作的研究缺少对应的理论框架作为指导,并且缺
随着科学技术的进步以及生活质量的提升,人们渴望更加方便、快速、有趣地进行人机交互,手部姿态估计和形状估计有望实现无接触的人机交互。随着人工智能的发展和5G技术的商用,利用深度学习估计手部姿态和形状成为可能,大量研究者尝试利用深度图像和彩色图像估计手部姿态与形状,并取得了令人欣喜的成绩。但当前的手部姿态及形状估计方法仍有提升空间,十分有必要对此展开研究。本文的研究工作如下:(1)深度图像自带深度信息
近年来,随着科学技术的迅速发展,人们的生活水平有了很大的提高,但随之也带来了许多环境污染问题。环境中的各种有毒有害气体正在威胁着人们的健康,因此开发一种选择性好、灵敏度高、工作温度低的传感器变得尤为重要。其中尖晶石型(AB2O4)和钙钛矿型(ABO3)两种金属氧化物由于独特的结构成为了当下的研究热点。本文主要包含了NiFe2O4和LaFeO3两种双金属氧化物的制备及其气敏性研究。主要研究内容如下:
语音质量评估技术是语音处理领域重要研究内容之一,它在移动通信、互联网、消费电子、数字娱乐、公共安全等领域具有广泛应用。主观语音质量评估方法通常需要较多的人力与物力资源,且耗时较多,因此客观语音质量评估方法越来越受到人们的青睐。有参考语音的客观质量评估方法需要纯净的原始语音,这在实际中有时难以获得。于是无参考语音的客观质量评估方法逐渐得到重视,特别是近年来基于深度学习的无参考语音质量评估研究已取得重
光纤声传感器以其体积小、抗电磁干扰、频率响应范围宽、适应恶劣环境等特点,在很多领域发挥着重要作用。膜片式非本征Fabry-Perot干涉(EFPI)声传感器以高灵敏度和探针型传感器结构而引起了广泛的研究兴趣。基于正交点(Quadrature point,即Q点)的强度检测方法是EFPI声传感器应用最为广泛的解调技术之一,但强度解调检测方式具有有限的检测动态范围,当检测强声信号时会发生信号失真。此外
基于我国IPO核准制制度背景,本文检验IPO对企业商业信用供给的影响。结果发现:第一,相比IPO前,企业IPO后商业信用供给显著增加;第二,作用机制检验发现,缓解融资约束、增强从供应商处获取商业信用的能力是IPO促进企业商业信用供给增加的两个路径;第三,异质性检验发现,IPO对企业商业信用供给的促进作用主要发生在非国有企业、规模较小的企业及产品市场竞争激烈的行业;第四,进一步检验发现,IPO前商业