论文部分内容阅读
传统图像压缩方法,在压缩编码阶段一般包括离散余弦变换(Discrete Cosine Transform,DCT)、量化(Quantization)和熵编码,对应的解码过程为反熵编码、反量化和反离散余弦变化。与传统的图像压缩方法相比,本论文主要内容为利用深度学习方法对RGB三通道8位量化深度的图片进行压缩的算法研究。在编码阶段使用卷积神经网络(CNN)对处理成数据矩阵的图片进行16倍的下采样操作,有效地降低了数据矩阵的大小。继而对下采样得到的数据矩阵进行取整量化,并对量化后的值进行熵编码,有效降低压缩后的存储空间。在进行网络训练的时候,我们提出通过构造超参估计网络,学习特征的分布。论文中使用Laplace函数对特征分布进行拟合,通过网络训练得出Laplace分布函数的μ,σ值,并通过拟合的分布函数对特征进行自适应的上下文算术编码。对应编码部分,在解码阶段,论文提出的方法会对熵编码后的特征进行反熵编码、反卷积操作。网络训练过程中为了增强学习效果,引入了特征丰富操作。我们在训练损失函数中加入了由不同下采样倍数得到的特征对应的平方差损失,约束了卷积操作每一次下采样得到的特征的表现能力,有效地加速了网络的学习速度并且提升了网络性能。同时,为了进一步增强卷积网络的效果,在卷积网络中借鉴残差网络的思想引入了残差补偿块。最终压缩效果可以显著高于JPEG2000、JPEG、webp等传统压缩算法,其中在PSNR指标上可以高于JPEG2000大约0.5-1 dB,在MS-SSIM-DB指标上能高于JPEG2000大约0.2-0.5dB。