论文部分内容阅读
低密度奇偶校验码(Low Density Parity Check code,LDPC)具有逼近Shannon极限的性能,并且具备实现高速编译码的特性,在诸多高性能通信系统中均可以看到LDPC码的应用,并且5G标准已选定LDPC码作为增强移动宽带(Enhanced Mobile Broadband,eMBB)场景的数据信道编码方案。在LDPC码研究领域,译码器的实现一直是重难点,通常可以采用可编程门阵列(Field-Programmable Gate Array,FPGA)、中央处理器(Central Processing Unit,CPU)、超大规模集成电路(Very Large Scale Integration,VLSI)等作为实现方案。近几年来,图形处理器(Graphics Processing Unit,GPU)的密集型计算能力使得它在通用计算领域异军突起,统一计算设备架构(Compute Unified Device Architecture,CUDA)是用于支持GPU通用计算的软硬件架构。CUDA的并行架构等特点非常适合实现高速的LDPC并行译码器,相较于FPGA,CUDA具有诸多优势,如更好的可编程性,更灵活可重构的架构等,近年来基于CUDA平台实现LDPC码并行译码器已成为了新的研究热点。欧洲数字电视卫星广播第二代标准(Digital Video Broadcasting Satellite-2nd Generation,DVB-S2)具有很好的传输性能,它采用LDPC码作为前项纠错系统的内码,支持21种码率,码长达到长帧64800 bits,短帧16200 bits。本文选取DVB-S2标准中的LDPC码为研究场景,研究基于CUDA平台实现LDPC并行译码器的方案和可获得的加速潜能:本文首先研究了CUDA平台,详细分析了CUDA编程模型中的关键技术,并且介绍了一些程序优化的策略。然后,以LDPC码的编、译码原理及算法为研究重点,分析了DVB-S2标准中的LDPC码及其编码算法,并以此算法为编码实现方案搭建了LDPC串行译码仿真平台,对比分析了置信传播(Belief Propagation,BP)、最小和(Min-Sum,MS)、归一化最小和(Normalization Min-Sum,NMS)和偏置最小和(Offset Min-Sum,OMS)几种译码算法的误码率(Bit Error Ratio,BER)性能。随后,在CUDA平台实现了支持四种译码算法(LLR-BP、MSA、NMSA、OMSA)的全并行化结构译码器,并详细阐述了译码器中关键模块的实现方法和校验矩阵存储方式。最后,利用本文搭建的DVB-S2标准LDPC码的串、并行译码仿真平台进行仿真实验,给出了串、并行译码器在误码率性能和译码延时方面的实验结果与分析。研究表明本文基于CUDA实现的并行译码器能够很大程度地缩短译码时间,加速比最高可达CPU串行平台的17倍,并且不会带来性能损失,还证实了本文的并行译码器可实现对DVB-S2标准全码率LDPC码进行译码。