论文部分内容阅读
最近,光场图像(Light Field Image,LFI)因为能够提供更佳的沉浸式体验,而引起国内外学者的关注。光场成像已经发展成为一种能够从真实世界中捕获更丰富的视觉信息的技术,其在计算机图形学和信号处理领域具有广阔应用前景。与传统的摄影技术(从包含角度域的3D场景中捕获光线的2D投影)不同,光场从所有方向收集光线的辐射信息,从而多路分解传统摄影中丢失的角度信息。这种更高维度的视觉数据表示提供了强大的场景理解功能,并大大提高了解决传统计算机视觉问题的能力,例如深度感知,重聚焦等。然而,由于数据量增大,给光场图像的存储和传输带来了挑战。光场图像的数据结构与传统的图像或视频有所不同,这种差异导致现有编码工具对光场数据的压缩效率低下。因此,光场图像高效压缩算法研究可以有效降低网络传输和存储压力,对光场数据的应用普及具有重大意义。本文主要结合光场图像的结构特征对光场图像压缩算法开展了深入研究,分别提出了两种光场图像压缩方案,包括基于多视点伪序列(Multi-view Pesudo Sequence,MPS)的光场图像压缩算法、基于多任务学习(Multi-Learning,MTL)的光场图像压缩算法。具体如下:1、考虑到光场子孔径图像存在较强视点内和视点间相关性,本文提出了一种基于多视点伪序列的光场图像高效压缩算法。首先,在编码端,将原始光场图像转化为子孔径图像(Sub-Aperture Image,SAI)阵列并选取少数SAI,将其按照一定的顺序构建为多视点伪视频序列,然后根据SAI的结构特征设计灵活的预测编码结构并通过MV-HEVC平台进行编码传输。在解码端,所提算法将解码得到的SAI按照一定的扫描顺序排列成伪视频序列,并利用基于卷积神经网络的视频帧插值方法重建出未编码传输的SAI,从而重建出全部SAI。2、考虑到光场子孔径图像包含有更深层次的结构特征,本文提出了一种基于多任务学习的光场图像高效压缩算法。首先,在编码端,对子孔径图像阵列进行稀疏采样获取关键子孔径图像以构建多视点伪序列。然后,在解码端,所提算法通过将整个量化参数(Quantization Parameter,QP)范围划分为多个QP频段并采用迁移学习(Transfer Learning)策略为每个频段训练专门的多任务光场重建网络(Multi-tasking Light-field Reconstruction Network,MLRN)模型生成剩余子孔径图像,实现光场图像的高质量角度超分辨率重建。综上所述,本文根据光场图像的结构特征提出了两个光场图像压缩算法。实验结果表明,所提算法均能有效去除光场图像内部的结构冗余,实现对光场图像的有效压缩。本文所取得的的研究成果具有一定的新颖性,为光场图像压缩的工程实现开辟了新的思路,为光场图像的应用发展做出了贡献。