基于半监督学习的图像去雨算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:yhmlivefor50
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单幅图像去雨在计算机视觉领域中是一项具有挑战性的任务,且在恶劣有雨环境中获得的图像会影响后续高级视觉任务的性能,因此提出一个高质量的模型来解决图像去雨问题至关重要。本文首先提出一个新颖的密集特征金字塔网格网络(DFPGNet)来解决单幅图像去雨问题。不同于以往的特征金字塔方法,本文提出的密集特征金字塔网格(DFPG)模块采用多路径和多尺度方法,使得DFPG能够融合五个来自不同路径和不同尺度的特征并通过密集融合连接将当前层的特征和之前所有路径层的输出特征相融合,以此来获得浅层和深层的特征信息,促使该模块具有更强的特征学习能力。通过大量实验证明DFPGNet 比其他先进的方法具有更好的去雨表现。目前大多数方法都依赖于有监督的合成数据集,然而在真实场景下人们获得的大多数都是不成对的图像(没有相应的干净无雨图像)。在此情形下图像间缺少有效的约束条件,因此使用无监督数据训练模型来移除雨线是一个具有挑战性的任务。为解决上述问题,本文在DFPGNet的基础上提出一个半监督循环生成对抗网络(SSCGNet)来解决图像去雨问题。SSCGNet使用CycleGAN的方法,其中两个生成网络分别用来生成无雨图像和有雨图像,两个判别网络促使生成网络生成更真实的图像。除了常用的网络约束以外,图像HSV颜色空间先验知识被引入用来约束没有监督的真实有雨图像,从而不需要真实的无雨图像做监督。通过实验证明本文提出的SSCGNet能够取得较好的去雨表现。此外,大部分深度学习方法都是端到端的学习无雨图像或者只是简单应用加性模型来端到端学习雨线图,但是雨水成像的物理模型对图像去雨任务也是至关重要的。因此,本文在SSCGNet的基础上进一步提出一个基于物理模型的图像半监督去雨网络(SSPM-Net)。SSPM-Net包括两个子网络,分别用来粗略估计无雨图像和估计深度图像,然后通过物理模型O(x)=I(x)[1-R(x)-A(x)]+R(x)+A0A(x)重建精细的无雨图像。通过实验证明,本文提出的模型相比其他半监督方法能够在去雨任务上取得更优异的表现。
其他文献
雾是一种较为常见的现象,通常情况下,由于能见度有限等外界环境的干扰,户外拍摄的图像会出现对比度低、图像模糊、颜色失真等图像质量下降的情况。如果把这些原始的退化图像作为输入,对后续高级计算机视觉任务,例如目标检测、人脸识别等,会产生较大的影响。图像去雾的目的是从输入的有雾图像中得到保留细节、色彩丰富的干净图像,图像去雾作为图像处理的重要环节受到了较多研究者的关注。当前的去雾算法研究中,基于图像增强的
学位
胰十二指肠切除术是治疗壶腹肿瘤及壶腹周围肿瘤的标准术式。近年微创技术在胰腺外科的应用发展迅速,国内外学者通过不断改良手术策略,以降低术后并发症发生率、提高R0切除率与患者预后。较传统术式,腹腔镜胰十二指肠切除术由于具有更短的住院时间、更低的术中大出血风险等优点逐渐被胰腺外科医师所接受,但其操作较困难,学习曲线长,若不能实现R0切除会大大降低手术本身带来的益处,选择合理的手术入路、手术策略对实现R0
期刊
人体姿态估计,作为计算机视觉领域的重要发展课题,近年来受到广泛的关注。单张图像的多人人体姿态估计方法,致力于在检测出图像中所有人的实例的同时,定位每一个人的所有人体关键点的具体位置。其作为理解图像或视频中的人的行为的基础,为动作识别、行人重识别、行人追踪、三维人体姿态估计、三维人体重建等后续任务的实现提供了重要的辅助。过去的多人人体姿态估计的方法,大多是基于两阶段的,具体地,可大致分为自顶向下和自
学位
点云的法向是各种点云处理任务中的基本特征,随着深度神经网络的兴起,最近已经有相当多的利用深度学习方法的点云法向估计方法被提出,相比于传统方法,这些基于深度神经网络的方法无论从速度上还是精度上都取得了巨大的成功。然而,大多数基于深度的方法都采用从输入数据提取出的特征直接回归法向量这一思路,这对于存在异常值的数据来说,往往表现得很差,对训练数据十分敏感。同时,这使理解黑盒模型中点云法向量估计机制变得十
学位
三维人体重建是计算机视觉领域的重要问题,该问题关注的是如何在静态三维扫描数据的基础上,重建一个具有参数化表示人体网格模型,从而可以进行姿势驱动。三维人体重建在游戏、电影、虚拟现实和增强现实等领域具有十分广泛的应用,因此具有重要的意义。本文首先简单地介绍了三维人体重建问题的背景和相关工作,包括常见的三维数据结构、常见的参数化人体模型以及基于不同思路(优化或者回归)和不同表示(参数化模型或者隐式函数)
学位
最优传输理论研究可分度量空间中概率测度之间的最优传输变换。给定两个概率分布和对应的传输代价函数,最优传输问题求解使得总传输成本最小的传输方案。近年来,随着最优传输理论和算法的不断发展,最优传输理论在深度学习、图像处理、经济学和医学等领域都发挥出巨大的作用。因此,研究计算最优传输问题的高效算法,有助于最优传输理论更好地应用于各个领域。本文首先对求解最优传输问题的三种不同算法进行了介绍和实验,它们分别
学位
深度学习是机器学习的一个分支,通过分层学习获取数据的内在规律和表示层次。目前深度学习被广泛应用在计算机视觉、自然语言处理、语音识别、量子化学以及医学等领域,尤其在图像识别中表现出了出色的性能,这离不开大规模、高质量的数据集以及GPU性能的提升。在传统的图像识别任务中,训练数据的类分布往往受到人工的影响,即不同类别的样本数量基本一致。然而真实应用场景中的数据集通常表现出长尾分布,这给图像识别任务带来
学位
本文以对比分析理论、第二语言习得理论作为指导,采取学科内两种语言交叉研究的方式,对国际中文敬语教学进行系统地梳理总结。通过对比分析以及问卷调查的方式,分析以韩语为母语的学生学习汉语敬语时所存在的主要问题及原因,并结合调查结果及具体教学实践经验提出相关教学建议,以期能在一定程度上为对韩汉语敬语教学提供一些参考。全文主要分为五个部分。第一部分是绪论,主要对文章的研究内容、研究方法、研究综述等进行了概述
学位
《六十种曲》作为“现存明代汇刻传奇最丰富而重要之总集”(傅惜华语),兼有文人案头本与舞台演出本的双重性质,具有很高的研究价值。道具是戏曲创作和戏曲演出中的重要组成部分,对戏曲研究具有重要意义。故对《六十种曲》道具进行研究是可行并具有价值的,既能为《六十种曲》研究增添新的内容,又能将戏曲的文本研究与舞台研究紧密联系起来,还有助于当代剧作家借鉴前人的道具设计进行戏曲创作。本文以“《六十种曲》的道具研究
学位
作为计算机视觉领域的研究热点,图像生成任务具有巨大的理论研究价值与实际应用潜力,其中,场景图像生成由于需要同时考虑多个物体以及物体间复杂的交互关系,更具挑战性。然而,当前大多数方法均从复杂的文本描述、场景图、场景布局中生成场景图像,往往需要用户或是详细阐述物体属性及关系,或是构造专业性较强的结构场景图,或是固定物体间的布局关系,因而用户友好性不足。为了给用户提供便捷化的场景图像生成方式,本文基于知
学位