基于CPU-GPU并行架构的视频会议解码器

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:zxyoci
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,视频会议中多路高清视频流的实时解码已经成为了研究热点问题。在软件会议系统中,单依靠传统的CPU解码算法已经难以满足人们对于高清视频会议高实时性的要求。由于硬件资源限制,在大规模的高清(1080P)会议同时开展的情况下,传统的CPU解码很容易出现内存资源不足、处理核心能力不够的情况,本文在分析现有CPU串行算法的基础上,主要研究如何利用GPU加快H.264解码速度,减少系统资源,支持更多码流,旨在设计出更快、更优的视频会议解码器。主要工作为:首先本文在研究H.264协议中耗时较多的环路滤波模块的基础上,分析环路滤波过程中各个像素点之间的处理顺序以及相关性,统计了滤波线程之间的并行与冲突可能性,提出了一种全并行去块滤波的GPU解码算法,通过改变一部分滤波强度的值,以及提前计算中间变量的方式使之适应GPU的运算。实验证明,改算法能够有效提高环路滤波速度,同时在视频帧的质量方面几乎没有损失。其次,本文在研究基于多核计算机的2d-wave解码算法以及基于GPGPU的2d-wave-GPU算法的基础上,针对其算法当中CPU与GPU之间数据交换时间过大以及单一宏块采用单个线程进行解码的问题,提出了一种基于CUDA的流水线结构以掩盖GPU与CPU之间数据传输的耗时,通过CPU与GPU协同工作的方法减少CPU解码资源的占用,实现CPU与GPU的并发处理,同时在不同的解码模块采用多个Thread对单个宏块进行解码,实验证明,本文的算法解码速度相对于原始的2d-wave-GPU有着明显的提高,其相对于FFMPEG也有一定的优势,同时其本身的结构对于后文的3d-wave-GPU的设计具有指导意义。本文在基于多核计算机的3d-wave解码算法以及改进的2d-wave-GPU解码算法的基础上,分析帧内及帧间宏块相关性,提出了一种在时间维度上多帧视频序列并行解码的3d-wave-GPU解码算法,该算法利用帧内宏块在解码过程中只与运动矢量对应的参考区域以及相邻宏块相关的特点,通过合理避免解码线程的冲突实现时间片上对多帧视频序列的GPU并行解码,同时利用GPU高并发量的特点快速处理H264解码算法中并行粒度高的模块,将解码协议中的宏块与CUDA编程模型中的Block形成高度映射的关系,实验证明,该解码器有效提高了会议视频的通量,同时解码速度相对于串行算法也有所提升。
其他文献
目的国务院于2016-12-27颁布了"十三五"卫生与健康规划,明确的主要任务包括提高基层医疗服务能力,促进医疗服务体系协调发展。本研究探讨"十二五"期间我国社区卫生服务机构医
膜分离技术由于其能耗低,装置简单,操作容易等一系列优势而受到人们的普遍重视。根据膜材料的不同,可以将膜分为有机膜与无机膜两大类。与有机膜相比无机膜是一个新兴的领域,但无
为应对第三方资助纠纷解决可能给诉讼和仲裁所造成的冲击,英格兰和威尔士、澳大利亚等逐步探索出了行业自律型、法院主导型等典型规制模式;在此基础上,新加坡以民法授权、下
多孔硅(PS)是一种制备专注简单、结构极其复杂的材料,它奇妙的发光现象和发光特性很快吸引了一大批科学工作者参与多孔硅材料的研究和器件的开发。目前,人们普遍关注的问题仍然
小学的道德与法治统编教材着力突出对学生道德素养中法治意识的培养,是对小学生开展有效法治教育,将法律意识的种子播种在学生心中的重要途径,其无论是从学生个人成长还是法
针对多晶硅还原炉底盘支撑结构的应力分析问题,基于JB 4732-1995 《钢制压力容器--分析设计标准》(2005年确认)中的弹性应力分析法以及ASMEⅧ-2中的极限载荷法和弹塑性分析法
<正>最近一段时间,灰犀牛火了。或许这种生长于广袤的非洲草原的大型动物,无论如何也不会想到,某一天会在遥远的中国成为经济领域里的明星。灰犀牛,生长于非洲草原,体形笨重
期刊
作为一门应用科学,幼儿教育学涉及幼儿发展的方方面面。幼儿教师对幼儿的教育方式不同,对幼儿产生的影响就会不同。职高幼教专业开设"幼儿教育学"课程意义重大。强调了幼儿教
目的分析应用丹皮酚后哮喘大鼠气道高反应性的改善情况。方法选取健康清洁级SD大鼠40只,随机分为四组,每组10只。空白对照组给予生理盐水,模型组、丹皮酚低剂量组(75 mg/kg)
中小企业在我国的经济发展中起着非常重要的作用,其中成长型中小企业的作用更加突出,但中小企业自身存在的劣势,使得企业在成长过程中受外界经济、技术环境等因素的影响较大,