论文部分内容阅读
随着网络多媒体技术的高速发展,高清及超高清视频的应用逐渐普及,大量视频数据的产生给视频存储及传输带来了巨大挑战。在此背景下,视频编码联合工作组(Joint Collaborative Team on Video Coding,JCT-VC)于2013年成功推出了新一代视频编码标准HEVC(High Efficiency Video Coding)。与上一代视频编码标准H.264/AVC相比,HEVC中采用了大量先进的编码技术和工具,将视频编码效率提高一倍的同时也使得编码复杂度大幅增加,严重阻碍了HEVC的推广和应用。因此,降低编码复杂度和优化编码质量是HEVC研究的两个关键问题。本文面向实时超高清视频编码的需求,围绕HEVC编码复杂度及率失真性能两大方面的核心问题开展了深入研究,提出了大幅降低HEVC编码复杂度和显著提升感知率失真性能的创新算法,并在此基础上设计与实现了基于HEVC的4K超高清实时软件编码系统。本文的主要研究内容及创新点如下:针对帧内编码单元(Coding Unit,CU)模式选择复杂度高的问题,提出了基于逻辑回归分类器的帧内CU划分模式判决算法。本文将帧内编码单元的划分建模为分类问题,通过直接分析输入数据的特征,采用简单高效的逻辑回归分类器对编码单元的划分进行提前判决,从而避免了帧内编码单元的遍历搜索。为了提取输入数据中与编码单元划分类别最为相关的特征,针对不同的量化参数和编码深度,以F-score的评价方法进行特征选择。实验结果表明,在全I帧的配置下,该方法使帧内编码计算复杂度平均下降了55.51%,且码率仅增加1.3%。为了降低帧间编码的复杂度,提出了基于聂曼-皮尔逊准则的帧间编码单元和预测单元模式判决算法。具体来说,本文将编码单元和预测单元的选择建模为分类问题,提出将错误分类分为“漏检”和“误检”两种情况,并采用聂曼-皮尔逊决策准则,在限制误检率的前提下,使漏检率最小。该算法同时采用非参数估计的方法来计算率失真代价的条件概率分布等参数,并针对不同量化参数及编码深度的率失真代价的条件概率分布进行周期性更新,以提高分类的精度。实验结果表明,该算法平均减少了65%的编码时间,且码率仅增加1.29%。此外,该算法可以设置不同的误检率,具有均衡率失真性能和编码复杂度的优点。由于HEVC率失真优化(Rate-Distortion Optimization,RDO)技术忽略了人眼的视觉特性,本文提出了一种基于运动注意力模型和视觉失真敏感度模型的率失真优化算法。与一般的感知模型不同,这两种感知模型充分利用了HEVC编码环路中的运动矢量、变换系数、残差等信息,采用这些信息不仅能反映出物体的运动特征和图像的纹理特征,还能很好地限制模型复杂度的增加。另外,由于编码中运动矢量是以最小率失真代价为准则而计算得到的,有时并不能反映真实运动矢量。因此,提出了一种基于最大后验概率估计的运动矢量场细化方法,以提高模型的精度。然后根据运动注意力模型和视觉失真敏感度模型提取到的感知特征,对拉格朗日乘子和量化参数进行自适应地调整,从而提高视频编码的感知质量。针对全景视频数据量过大的问题,提出了基于注视点引导的全景视频编码算法。由于头戴式显示器(Head-Mounted Displays,HMD)的限制,全景视频在任意时刻仅显示了视口(Viewport)内容,且人眼通常会关注注视点周围的区域。因此,本文首先提出了一种基于三维卷积神经网络的注视点预测模型来预测全景视频中注视点的位置。该模型同时考虑了视频内容相关的特征和人眼历史扫描路径这两大因素。然后,根据预测得到的注视点,提出了一种适用于全景视频的注视点自适应视频编码方法,以提高关注区域的编码质量。该编码方法结合人眼注视点的加权因子和矩形到单位球面的缩放因子,对比特分配和量化参数进行自适应地调整。在不影响视觉感知质量的情况下,有效地降低了全景视频编码的码率。本文对目前应用最为广泛的HEVC实用编码器x265的编码框架及计算复杂度进行了深入分析,提出了x265编码器的模式判决优化算法,包括减少率失真优化次数、SKIP模式提前检测和帧内模式快速选择等。同时,由于样点自适应补偿(Sample Adaptive Offset,SAO)计算复杂度过高,预测编码线程与SAO处理线程存在计算负载不均衡的问题,导致x265在多核处理器(12核以上)上编码超高清视频的并行效率较低。因此,提出了SAO模式快速选择方法以减少并行等待时间,从而实现了对超高清视频的实时编码。此外,基于优化后的编码器,实现了超高清实时编码系统,并提出了针对系统稳定性的优化策略,即根据输入及输出缓冲区的状态自适应地调整编码速度和码率。