论文部分内容阅读
近年来,视频会议中多路高清视频流的实时解码已经成为了研究热点问题。在软件会议系统中,单依靠传统的CPU解码算法已经难以满足人们对于高清视频会议高实时性的要求。由于硬件资源限制,在大规模的高清(1080P)会议同时开展的情况下,传统的CPU解码很容易出现内存资源不足、处理核心能力不够的情况,本文在分析现有CPU串行算法的基础上,主要研究如何利用GPU加快H.264解码速度,减少系统资源,支持更多码流,旨在设计出更快、更优的视频会议解码器。主要工作为:首先本文在研究H.264协议中耗时较多的环路滤波模块的基础上,分析环路滤波过程中各个像素点之间的处理顺序以及相关性,统计了滤波线程之间的并行与冲突可能性,提出了一种全并行去块滤波的GPU解码算法,通过改变一部分滤波强度的值,以及提前计算中间变量的方式使之适应GPU的运算。实验证明,改算法能够有效提高环路滤波速度,同时在视频帧的质量方面几乎没有损失。其次,本文在研究基于多核计算机的2d-wave解码算法以及基于GPGPU的2d-wave-GPU算法的基础上,针对其算法当中CPU与GPU之间数据交换时间过大以及单一宏块采用单个线程进行解码的问题,提出了一种基于CUDA的流水线结构以掩盖GPU与CPU之间数据传输的耗时,通过CPU与GPU协同工作的方法减少CPU解码资源的占用,实现CPU与GPU的并发处理,同时在不同的解码模块采用多个Thread对单个宏块进行解码,实验证明,本文的算法解码速度相对于原始的2d-wave-GPU有着明显的提高,其相对于FFMPEG也有一定的优势,同时其本身的结构对于后文的3d-wave-GPU的设计具有指导意义。本文在基于多核计算机的3d-wave解码算法以及改进的2d-wave-GPU解码算法的基础上,分析帧内及帧间宏块相关性,提出了一种在时间维度上多帧视频序列并行解码的3d-wave-GPU解码算法,该算法利用帧内宏块在解码过程中只与运动矢量对应的参考区域以及相邻宏块相关的特点,通过合理避免解码线程的冲突实现时间片上对多帧视频序列的GPU并行解码,同时利用GPU高并发量的特点快速处理H264解码算法中并行粒度高的模块,将解码协议中的宏块与CUDA编程模型中的Block形成高度映射的关系,实验证明,该解码器有效提高了会议视频的通量,同时解码速度相对于串行算法也有所提升。