论文部分内容阅读
作为第五代移动通信(5G)系统的关键技术之一,大规模多输入多输出(M-MIMO)技术能够实现更高的数据传输速率、更高的频率利用率和更强的数据连接可靠性。然而,其大规模的天线数量也给信号检测带来了极大的计算复杂度。此外,作为目前唯一一种可证明在二进制离散无记忆信道(B-DMCs)中达到香农极限的信道编码技术,极化码于2016年成功入选5G系统标准,成为增强移动带宽(e MBB)场景中控制信道的标准编码方式。然而,作为极化码最主要的译码算法之一,串行抵消列表(S-CL)算法的译码性能随着列表数L的增加而得到增长,因此,为获得较为满意的译码性能,传统的设计均会采用较大的列表数,从而导致了较高的硬件消耗。与此同时,可穿戴电子移动设备的小型化、低功耗化发展趋势意味着未来的基带信号处理芯片需要兼具更小的面积与更低的功耗。因此,针对上述问题,本文将重点探究如何利用近似计算的思想来降低大规模MIMO系统中信号检测与极化码S-CL译码的计算复杂度与硬件消耗。本文首先对大规模MIMO下的低复杂度高性能线性检测算法进行了探究,建立了一种更切合实际通信场景的MIMO多天线用户系统(MIMO-MAUE),并利用该系统场景下信道矩阵的稀疏性,提出了一种低复杂度的双层块对角的改进纽曼迭代近似(TL-BD-INSA)算法。首先,提出了一种基于矩阵分块的双层纽曼迭代的近似矩阵求逆算法,其性能与精确求逆算法相当,但能够实现更低的计算复杂度。其次,为了加快该双层纽曼迭代的收敛速度,本文引入了一种改进的基于数学期望推导的归一化因子,其能够有效加速迭代的收敛。值得一提的是,该归一化因子的计算可以通过离线计算得到,因此其不会给系统引入额外的计算负担。数值仿真结果表明,对于128×32的MIMO-MAUE系统下的非理想传播环境,当误码率(BER)为10-3时,所提出的TL-BD-INSA算法相较于MMSE检测算法只有0.25 d B的性能差距。进一步地,基于FPGA的硬件实现结果表明,TL-BD-INSA检测器能够实现1731 bps/slices的硬件效率,为MMSE检测器的1.21倍。因此,所提出的TL-BD-INSA算法既适用于理想的不相关信道中,也适用于具有挑战性的MIMO-MAUE系统的相关性信道下,具有较优异的鲁棒性和低复杂度特性。其次,本文对大规模MIMO下的低复杂度高性能的消息传递检测算法进行了研究,提出了一种基于块对角纽曼级数的期望传播近似(BD-NS-EPA)算法,该算法既适用于理想的非相关信道也适用于MIMO-MAUE系统下的相关信道。首先,通过将纽曼级数由矩阵间迭代的形式转换为向量间迭代的形式,提出了一种基于矩阵分块的单层纽曼迭代算法,降低了相应的计算复杂度与延时。其次,提出了一种可调排序消息更新策略(ASMU),用以减少每次迭代中对于已收敛节点的冗余的计算。同时,也引入了归一化因子,以加速迭代收敛。此外,采用了一种基于硬判决的化简策略,以对计算中的指数运算进行化简。数值仿真结果表明,对于128×32的MIMO-MAUE系统下的非理想信道,在BER=10-3时,所提出的BD-NS-EPA算法能够以EP检测算法3%的归一化复杂度为代价,实现相比于EP检测算法仅约0.3 d B的性能差距。基于SMIC 65 nm CMOS工艺的ASIC实现结果表明,所提出的BD-NS-EPA检测器能够实现1.483 Gbps/W的能量效率和0.326 Mbps/k GE的面积效率,进一步证明所提出的检测器可以在误码率性能和硬件效率之间实现良好的折衷。随后,本文对基于随机计算的低复杂度极化码S-CL译码器进行了研究。提出了基于随机计算的双级译码策略,有效地降低了基于随机比特流形式进行译码的时延。进一步地,提出了一种面向该双级译码策略的低复杂度自适应分布式排序(ADS)算法,通过利用极化码译码树节点的特有性质,以较低的复杂度实现了从2L或4L条路径中对L条最优路径进行选择的过程。仿真结果表明,列表数为2L的基于随机计算实现的S-CL译码器能够实现略优于列表数为L的基于二进制计算实现的S-CL译码器的性能。基于FPGA的硬件实现结果表明,相比较于基于二进制实现的S-CL译码器,基于随机计算的S-CL译码器所消耗的ALMs和寄存器仅为其5.6%和14.2%左右。最后,作为神经网络辅助的MIMO检测器设计研究的一部分,本文探究了对于卷积神经网络中卷积核的加速设计,提出了一种基于快速FIR算法(FFA)与随机计算的低复杂度卷积架构——FFA-PSB架构。首先,利用FFA算法内在的运算并行性特征,提出了一种基于随机和二进制混合计算的二维卷积架构,精心设计的混合计算能够使得该架构在保证足够高的计算精度的同时尽可能地降低其相应的硬件实现复杂度。其次,通过提出一种并行输入的模式,并将Sobol低差异性序列与双线性随机计算相结合的方式来降低所提出架构中延迟模块的消耗与系统的计算周期。将FFA-PSB卷积架构应用至Le Net-5卷积神经网络中的仿真结果表明,基于FFA-PSB架构的实现能够实现接近于传统的基于二进制定点的卷积实现方案的精度。基于SMIC 65 nm CMOS工艺的实现结果进一步地表明,所提出的FFA-PSB卷积架构,能够实现相比于最新的基于随机计算的卷积加速器1.5倍的面积效率和1.3倍的能量效率提升。