论文部分内容阅读
随着图像采集与显示技术的快速发展,4K/8K等高分辨率视频正逐渐进入我们的工作和生活。新一代视频压缩标准(HEVC)虽然较前一代H.264在高分辨率视频的编码上节省50%左右的码流,但由于高清视频图像的分辨率成倍增加,压缩后的视频数据量仍然很大,而且目前网络带宽资源仍然比较有限,这给视频数据的传输和存储带来很大的挑战。现有的视频编码标准在对视频进行编码时,虽然可以有效去除视频的空冗余信息,但并没有考虑到人眼视觉特性,对于那些不符合人眼视觉特性的区域,经常消耗不少的码率资源,从而影响那些人眼关注区域的图像质量。因此,如何在有限的网络带宽和存储空间下合理分配码率资源,使压缩后的视频图像更加符合人眼视觉特性至关重要。为了解决上述问题,本论文提出了一种基于目标检测的智能视频编码方法,主要的工作和成果如下:(1)搭建X265编码平台,对HEVC编码标准的关键技术进行分析;根据人眼视觉特性,设计基于目标检测的智能视频编码方法的总体研究方案。(2)针对传统感兴趣区域编码方法在检测感兴趣目标时检测效果不佳且没有检测具体内容的问题,提出了一种基于卷积神经网络的感兴趣区域提取方法。首先根据应用场景确定感兴趣的目标对象,选择卷积神经网络模型对目标对象进行训练;然后将视频图像输入到卷积神经网络检测感兴趣目标对象,提取感兴趣目标对象位置坐标、置信度最大的目标对象类别及目标对象的数量;最后对提取的位置坐标进行后处理,生成感兴趣区域。(3)根据人类视觉系统的特性,设计了一种视觉感知图的生成方法,用于后续的感兴趣区域编码。首先通过高通滤波器计算每个像素点的边缘强度,确定每个像素点的方向属性;然后计算当前编码单元(CU)块中纹理复杂度,根据每个CU块的纹理强度信息,生成编码树单元(CTU)级的纹理感知图;最后提取平坦区域、结构化纹理区域和复杂纹理区域并生成纹理感知图。(4)针对视频编码过程中的比特资源分配问题,提出了一种基于视觉感知的HEVC感兴趣区域编码方法。根据编码块的纹理复杂度,对感兴趣区域的量化参数进行不同程度下调,对非感兴趣区域在变换域采用频率系数压制的方法对高频系数进行压制,从而实现比特资源的合理分配。(5)设计并实现了一种基于Jetson TX2的智能视频编码器。首先选择Jetson TX2作为硬件开发平台,设计智能视频编码器,主要包括视频采集、感兴趣区域提取、感兴趣区域编码和码流传输模块。最后通过测试分析,验证了智能视频编码器的编码效果,实现了感兴趣区域智能编码的功能,提升了感兴趣区域的图像质量。