论文部分内容阅读
随着通信技术和多媒体技术的快速发展,视频媒体已经深入到人们工作和生活的各个方面,成为不可替代的第一媒介。而视频的数据量巨大,不经过压缩编码的视频几乎无法在网络中传输,其存储代价更是无法承受。因此,视频编码技术在目前的视频大数据时代显得愈加重要。视频编码技术是安防监控、广播电视等应用的核心技术,视频编码标准为视频编码技术提供了统一的技术规范,使得视频技术得以推广流行。从上个世纪九十年代至今,制定了一系列的视频编码标准,不断推动了视频技术的发展,以满足不断变化的需求。然而,这几年自媒体的爆炸式增长,AR、VR等新媒体的出现,以及公共安全需求下监控视频的更高清化,均急剧加快了视频数据的增长规模,过去几年产生的数据比以前四万年产生的数据还多,即使最新的视频标准H.265/MPEG-H HEVC也已经无法满足现实需求,亟需新的编码技术来进一步提高编码性能。背景参考图像技术是视频编码技术中的新兴技术之一,其基于背景建模理论,通过充分利用静态背景特性消除视频信号的冗余,最大限度提高编码性能。然而,目前的背景图像合成模型多为用于视频分析的模型,此类模型需要大量训练样本,迭代粒度粗放,并不适用于视频编码;面向背景参考图像的码率分配技术多基于经验公式,无法根据内容进行自适应调整;此外,由于无法使用参考图像,帧内编码效率仍比较低,所耗比特数非常高,容易引起传输延时、丢包等现象。为了解决这些问题,本论文重点研究背景建模理论在视频编码中的应用,面向未来(下一代)编码标准技术,在背景参考图像的合成、背景块的帧间码率分配和监控视频的帧内编码方法三个方面开展了研究。论文主要创新点及贡献概括如下:(1)本文提出了一种高效的背景参考图像渐进式合成算法。针对静态摄像头和动态摄像头两种情况分别设计了合成算法。对于静态摄像头视频,首先基于背景图像的时空相关性,检测所有符合条件的候选背景块;再根据各个背景块的时空分布打分,基于分数排序后选取若干背景块进行高质量编码;最后使用重建背景块渐进式更新背景参考图像。对于动态摄像头视频,基于准确的全局运动估计对齐图像,再结合静态背景下的算法检测背景块,在背景参考图像的更新过程中引入光照平滑算法。这两种针对静态和动态摄像头的背景参考图像合成算法均有效提高了视频的编码效率,避免了因额外编码背景参考图像带来的码率陡增现象。本文提出的针对静态背景的背景参考图像合成算法已被最新视频编码国内标准AVS2接收,并被集成到AVS2参考软件中。(2)本文提出了基于稳定性分析的背景参考图像码率分配策略。基于已有的码率分配方法,本文在时域上对背景块的码率进行了二次分配,即在已分配给背景块码率的约束下,研究如何有效分配时域各个背景块间的码率,以实现全局编码性能最优。通过分析视频内容的稳定性,提取各个背景块的运动分布信息,估计当前背景参考图像中图像块被后续参考的概率大小,进而确定当前编码图像中背景块与后续相同位置伪背景块的编码质量关系。基于该关系,获得全局率失真准则下的最优码率分配方案,指导背景块的编码决策。与传统的码率分配方法不同,本文提出的背景块的码率分配策略在进行码率分配时,不仅仅考虑当前编码块的率失真最优,还考虑了当前背景块失真对后续块的影响,实现了全局率失真的最优化。(3)本文提出了基于光照分离和深度学习的监控序列帧内编码方法。一方面,考虑到不同时刻背景部分的反射系数基本不变,仅仅发生光照变化,本文提出了基于光照分离的背景块帧内编码方法。该方法使用不同时刻的背景图像序列进行光照分离,提取背景图像的反射系数图,并将其编码存储,使得后续任何编码图像均可访问。基于高质量反射系数图,背景块均可分离出光照分量。由于光照信号具有更强的空间相关性,更适合于帧内编码,该方法获得了更优的编码性能,并有效降低了帧内编码所需比特数。另一方面,考虑到原有帧内预测方法模式单一,无法根据内容自适应调整插值方式,本文还提出了新的基于深度学习的帧内预测模式。在该模式下,将原有最优预测模式的预测图像块通过周围可用重建像素填补作为输入图像块,使用该图像块通过卷积神经网络获得的输出图像块作为该模式的预测图像。该模式相比原有帧内预测模式,更充分利用了周围已编码信息,且提供了更丰富的插值滤波方式,获得了显著的编码性能提升。