论文部分内容阅读
摘要:基于深度卷积网络的强大学习能力和非线性特征表达能力,如何充分提取细节信息,使重构图像达到理想水平成为了该领域关注的热点。基于目标识别中的金字塔模型,本文提出了一种多尺度特征融合的图像超分辨方法,以充分提取多尺度特征信息并将其融合。该方法的基本思想是将特征图像金字塔(FPN)引入RDN网络,使其充分利用同一放大因数下不同维度的特征表达。金字塔模型可以有效赋能常规RDN模型,进而生成表达能力更强的特征映射。因此,金字塔模型增强了主干网络RDN的特征表达,使其得到更好的重构效果。
关键词:单幅图像超分辨率;深度学习;多尺度特征融合
1引言
单个图像超分辨(SISR)有一个众所周知的不适定性问题,因为一个特殊的低分辨率(LR)图像能够对应许多可能的高分辨(HR)图像,并且我们想要从LR映射到的HR空间(在大部分情况下,它一般是自然图像空间)通常是很难处理的。
因为深度学习(Deep Learning,DL)可以有效提取连接LR和HR空间的抽象信息,最新的基于深度学习的SISR方法已经在数量上和质量上取得了重大的突破。SRCNN结构相对简单,可以看做是用一个端对端的方法在LR和HR之间近似复杂映射的卷积神经网络。Kim等人提出深度网络VDSR和DRCN,应用了一个相关的高初始学习率来加速聚合并且用梯度裁剪来避免噪声梯度爆炸问题。DRCN为了参数共享第一次在深度网络中引入残差学习[1]。这些方法都需要对原始的LR图像进行内插处理,使其变成理想的大小。但是这种预操作不仅增加了计算的复杂度,而且一些信息也会丢失。
为了解决这个问题,Dong等人直接将原始LR图像作为输入,并且引入一个转置的卷积层(反卷积层)来上采样得到高分辨率图像。Shi等人提出ESPCNN,引入一个有效的亚像素卷积层来上采样最后的LR特征映射到HR输出。然而,这些方法没有充分利用每一个卷积层的信息,只是从LR空间的最后一个卷积层提取特征进行上采样。
之后,Huang等人提出了DenseNet,在一些密集块的任意两层允许直接连接。通过局部密集连接,在密集模块中每一层都从前边所有层中读取信息。但是,所有的方法都丢失了原始LR图像的一些有用层级信息,这些信息在图像恢复任务中十分有用。所以Zhang等人提出了RDN[2]网络,在LR空间上有效提取和自适应地融合所有层的特征信息。
基于以上工作,本文结合特征金子塔(FPN)[3]算法,利用深度神经卷积网络固有的多尺度金字塔结构,以极小的计算量构建特征金字塔的网络结构,以实现重构图像的效果优化。本文还围绕如何高效利用特征信息,以极少的样本数量获得最优的重构效果进行研究。大量实验表明,本文方法重构的图像质量在峰值信噪比(PSNR)、结构相似性(SSIM)和视觉效果图上都有显著提升。
2提出的方法
本文工作主要有两部分:一是将特征图像金字塔(FPN)[3]引入RDN[2]网络,使其充分利用同一放大因数下图片不同维度的特征表达结构,有效赋能常规RDN模型,从而生成表达能力更强的特征映射,以供下一阶段图像超分辨任务来使用。二是运用迁移学习,将已训练好的RDN网络模型迁移到现有的FPRDN网络中,实现性能的进一步提升。同时,实现了用较少样本训练出的FPRDN网络,重构时间短,内存占比小,性能优,更具普适性和实用性。
2.1网络结构
本文所提算法的总体网络结构由四部分组成:浅层特征提取模块(SFENet),残差密集模块(RDBs),密集特征融合模块(DFF)和上采样网络模块(UPNet)。
假设ILR和ISR分别代表RDN[6]网络的输入和输出。首先对ILR进行连续两次卷积操作实现下采样,然后在每一个维度上都使用两个卷积层来提取浅层特征。第一个卷积层从LR输入提取的特征之后会被用作进一步的浅层特征提取和全局残差学习。
在从一系列RDBs中提取等级特征后,进一步引入密集特征融合(DFF),包含全局特征融合(GFF)和全局残差学习(GRL)。DFF从之前所有的层中提取特征信息。
在LR空间中提取局部和全局特征后,使用上采样网络(UPNet)映射到HR空间上。运用ESPCNN在UPNet中,紧接着一个卷积层,实现图片的放大操作。
2.2子模块结构
残差密集模块
残差密集块(RDB)包含密集连接层,局部特征融合(LFF)以及局部残差学习,以及一个连续记忆(CM)机制。连续记忆机制是延续前边RDB的状态到每一层的当前RDB。
局部特征融合是在当前RDB中自适应地融合之前RDB和整个卷积层的情况。用级联的方式,将第d-1个RDB的特征映射直接引入到第d个RDB中,以减少特征数量。并且引入一个1×1的卷积层来自适应地控制输出信息。
局部残差学习(LRL)可以进一步提高信息流,因为一个RDB中有多个卷积层。LRL也能够进一步提升网络的表达能力,获得更好的结果。
密集特征融合模块
在一系列RDBs提取局部密集特征后,进一步用密集特征融合(DFF)在全局范围内提取分级特征。DFF包含全局特征融合(GFF)和全局残差学习(GRL)。
全局残差融合(GFF)提取全局特征,它是融合了所有RDBs中的特征。而全局残差学习是为了在上采样之前获取特征映射。
值得注意的是,本章提出的网络为了提取多维度特征信息,将三个LR图片(后边两个图片是依次下采样所得)分别进入三个RDN[2]网络,并在上采样网络前进行融合。而浅层特征映射只保留了第一个维度网络中的浅层特征映射,这是为了保留图片的最大特征,最终得到融合了多維度特征信息的密集特征。
3.实验
3.1实验设置和训练数据 數据集和矩阵。训练集是DRRN[11]的291幅图片,和通过旋转90°、180°和水平翻转得到的扩增数据集。在训练阶段,将每幅HR图像随机分割成5张128×128的图像块和不同放大因子(×2、×3、和×4)下相应的LR图像块。在测试阶段,用五个标准数据集:Set5,Set14,B100,Urban100和Manga109。超分辨率的结果用YCbCr颜色空间上Y通道的PSNR和SSIM评价。
训练运用的学习框架为Pytorch,硬件为Intel(R)Xeon(R)CPUE5-2683,频率为2.0GHz,内存128GB,两张12GB的NVIDIA GTX1080 Ti显卡,操作系统为Ubuntu16.40。在每一个训练批次里,都随机提取16个大小为128×128的LR彩色图像块作为输入。网络通过Adam optimizer进行优化,所有层的学习率初始化均为10-4并且每10个训练周期进行一次减半。
3.2实验结果
本文主要做的是定性和定量的实验。将FPRDN与其他类似的SR方法在同等条件下进行比较,包括Bicubic、SRCNN、VDSR、DRRN和RDN[2]。实验比较了不同放大因子下基准数据集的平均PSNR/SSIM。
从实验结果可以看出,通过与目前流行的卷积神经网络模型相比较,FPRDN在所有放大因数上的重构效果是最好的。这可以表明金字塔模型运用在RDN[2]网络上的有效性。当放大倍数增加时,FPRDN没有办法保持一样的性能优势,这是因为输入图像的大小限制了进一步的信息提取。更大的输入块能够适应更深的网络,并且在更大的感受野上提取更多的信息。
4结语
由于在卷积网络设计中,网络的深度和下采样图像之间是一对矛盾体。网络较浅,特征提取不充分,网络较深,可以提取较大的感受野,但随之下采样图像过大,细节重构效果显著降低。所以对于卷积神经网络而言,不同深度对应不同层次的特征信息。基于此,本文提出了FPRDN网络,将不同分辨率特征融合,即每个分辨率的特征映射和上采样的低分辨率特征相加,使得不同层次的特征增强。因为只在网络基础上做跨层连接和参数对应相加,所以计算量增加较少的同时性能得到极大改善。实验结果表明,该网络在重构性能、模型参数和速度方面有较强竞争力,适合于实际应用。
参考文献
[1]He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C].IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.
[2]Zhang Y,Tian Y,Kong Y,et al.Residual dense network for image super-resolution[C].IEEE Conference on Computer Vision and Pattern Recognition.2018:2472-2481.
[3]T.Y.Lin,P.Dollar,R.B.Girshick,K.He,B.Hariharan,and S.J.Belongie.Feature pyramid networks for object detection.In CVPR,2017.
关键词:单幅图像超分辨率;深度学习;多尺度特征融合
1引言
单个图像超分辨(SISR)有一个众所周知的不适定性问题,因为一个特殊的低分辨率(LR)图像能够对应许多可能的高分辨(HR)图像,并且我们想要从LR映射到的HR空间(在大部分情况下,它一般是自然图像空间)通常是很难处理的。
因为深度学习(Deep Learning,DL)可以有效提取连接LR和HR空间的抽象信息,最新的基于深度学习的SISR方法已经在数量上和质量上取得了重大的突破。SRCNN结构相对简单,可以看做是用一个端对端的方法在LR和HR之间近似复杂映射的卷积神经网络。Kim等人提出深度网络VDSR和DRCN,应用了一个相关的高初始学习率来加速聚合并且用梯度裁剪来避免噪声梯度爆炸问题。DRCN为了参数共享第一次在深度网络中引入残差学习[1]。这些方法都需要对原始的LR图像进行内插处理,使其变成理想的大小。但是这种预操作不仅增加了计算的复杂度,而且一些信息也会丢失。
为了解决这个问题,Dong等人直接将原始LR图像作为输入,并且引入一个转置的卷积层(反卷积层)来上采样得到高分辨率图像。Shi等人提出ESPCNN,引入一个有效的亚像素卷积层来上采样最后的LR特征映射到HR输出。然而,这些方法没有充分利用每一个卷积层的信息,只是从LR空间的最后一个卷积层提取特征进行上采样。
之后,Huang等人提出了DenseNet,在一些密集块的任意两层允许直接连接。通过局部密集连接,在密集模块中每一层都从前边所有层中读取信息。但是,所有的方法都丢失了原始LR图像的一些有用层级信息,这些信息在图像恢复任务中十分有用。所以Zhang等人提出了RDN[2]网络,在LR空间上有效提取和自适应地融合所有层的特征信息。
基于以上工作,本文结合特征金子塔(FPN)[3]算法,利用深度神经卷积网络固有的多尺度金字塔结构,以极小的计算量构建特征金字塔的网络结构,以实现重构图像的效果优化。本文还围绕如何高效利用特征信息,以极少的样本数量获得最优的重构效果进行研究。大量实验表明,本文方法重构的图像质量在峰值信噪比(PSNR)、结构相似性(SSIM)和视觉效果图上都有显著提升。
2提出的方法
本文工作主要有两部分:一是将特征图像金字塔(FPN)[3]引入RDN[2]网络,使其充分利用同一放大因数下图片不同维度的特征表达结构,有效赋能常规RDN模型,从而生成表达能力更强的特征映射,以供下一阶段图像超分辨任务来使用。二是运用迁移学习,将已训练好的RDN网络模型迁移到现有的FPRDN网络中,实现性能的进一步提升。同时,实现了用较少样本训练出的FPRDN网络,重构时间短,内存占比小,性能优,更具普适性和实用性。
2.1网络结构
本文所提算法的总体网络结构由四部分组成:浅层特征提取模块(SFENet),残差密集模块(RDBs),密集特征融合模块(DFF)和上采样网络模块(UPNet)。
假设ILR和ISR分别代表RDN[6]网络的输入和输出。首先对ILR进行连续两次卷积操作实现下采样,然后在每一个维度上都使用两个卷积层来提取浅层特征。第一个卷积层从LR输入提取的特征之后会被用作进一步的浅层特征提取和全局残差学习。
在从一系列RDBs中提取等级特征后,进一步引入密集特征融合(DFF),包含全局特征融合(GFF)和全局残差学习(GRL)。DFF从之前所有的层中提取特征信息。
在LR空间中提取局部和全局特征后,使用上采样网络(UPNet)映射到HR空间上。运用ESPCNN在UPNet中,紧接着一个卷积层,实现图片的放大操作。
2.2子模块结构
残差密集模块
残差密集块(RDB)包含密集连接层,局部特征融合(LFF)以及局部残差学习,以及一个连续记忆(CM)机制。连续记忆机制是延续前边RDB的状态到每一层的当前RDB。
局部特征融合是在当前RDB中自适应地融合之前RDB和整个卷积层的情况。用级联的方式,将第d-1个RDB的特征映射直接引入到第d个RDB中,以减少特征数量。并且引入一个1×1的卷积层来自适应地控制输出信息。
局部残差学习(LRL)可以进一步提高信息流,因为一个RDB中有多个卷积层。LRL也能够进一步提升网络的表达能力,获得更好的结果。
密集特征融合模块
在一系列RDBs提取局部密集特征后,进一步用密集特征融合(DFF)在全局范围内提取分级特征。DFF包含全局特征融合(GFF)和全局残差学习(GRL)。
全局残差融合(GFF)提取全局特征,它是融合了所有RDBs中的特征。而全局残差学习是为了在上采样之前获取特征映射。
值得注意的是,本章提出的网络为了提取多维度特征信息,将三个LR图片(后边两个图片是依次下采样所得)分别进入三个RDN[2]网络,并在上采样网络前进行融合。而浅层特征映射只保留了第一个维度网络中的浅层特征映射,这是为了保留图片的最大特征,最终得到融合了多維度特征信息的密集特征。
3.实验
3.1实验设置和训练数据 數据集和矩阵。训练集是DRRN[11]的291幅图片,和通过旋转90°、180°和水平翻转得到的扩增数据集。在训练阶段,将每幅HR图像随机分割成5张128×128的图像块和不同放大因子(×2、×3、和×4)下相应的LR图像块。在测试阶段,用五个标准数据集:Set5,Set14,B100,Urban100和Manga109。超分辨率的结果用YCbCr颜色空间上Y通道的PSNR和SSIM评价。
训练运用的学习框架为Pytorch,硬件为Intel(R)Xeon(R)CPUE5-2683,频率为2.0GHz,内存128GB,两张12GB的NVIDIA GTX1080 Ti显卡,操作系统为Ubuntu16.40。在每一个训练批次里,都随机提取16个大小为128×128的LR彩色图像块作为输入。网络通过Adam optimizer进行优化,所有层的学习率初始化均为10-4并且每10个训练周期进行一次减半。
3.2实验结果
本文主要做的是定性和定量的实验。将FPRDN与其他类似的SR方法在同等条件下进行比较,包括Bicubic、SRCNN、VDSR、DRRN和RDN[2]。实验比较了不同放大因子下基准数据集的平均PSNR/SSIM。
从实验结果可以看出,通过与目前流行的卷积神经网络模型相比较,FPRDN在所有放大因数上的重构效果是最好的。这可以表明金字塔模型运用在RDN[2]网络上的有效性。当放大倍数增加时,FPRDN没有办法保持一样的性能优势,这是因为输入图像的大小限制了进一步的信息提取。更大的输入块能够适应更深的网络,并且在更大的感受野上提取更多的信息。
4结语
由于在卷积网络设计中,网络的深度和下采样图像之间是一对矛盾体。网络较浅,特征提取不充分,网络较深,可以提取较大的感受野,但随之下采样图像过大,细节重构效果显著降低。所以对于卷积神经网络而言,不同深度对应不同层次的特征信息。基于此,本文提出了FPRDN网络,将不同分辨率特征融合,即每个分辨率的特征映射和上采样的低分辨率特征相加,使得不同层次的特征增强。因为只在网络基础上做跨层连接和参数对应相加,所以计算量增加较少的同时性能得到极大改善。实验结果表明,该网络在重构性能、模型参数和速度方面有较强竞争力,适合于实际应用。
参考文献
[1]He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C].IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.
[2]Zhang Y,Tian Y,Kong Y,et al.Residual dense network for image super-resolution[C].IEEE Conference on Computer Vision and Pattern Recognition.2018:2472-2481.
[3]T.Y.Lin,P.Dollar,R.B.Girshick,K.He,B.Hariharan,and S.J.Belongie.Feature pyramid networks for object detection.In CVPR,2017.