论文部分内容阅读
深度学习作为人工智能技术中的重要组成部分,在各类行业中有着广泛的应用场景,而计算装备的国产化,在当前的国际形势下具有十分重要的战略意义。国产计算平台下的深度学习目前缺乏可用的计算加速设备,导致应用推广较为困难。针对此问题,本文深入研究了深度学习中训练与推理两个过程,实现了两种支持国产计算平台的深度学习的加速技术:国产计算平台的GPU加速技术和国产FPGA卷积神经网络优化技术。这两项技术对于支撑国产计算平台上的深度学习应用具有重大意义。本文主要的工作如下:第一,通过阅读文献资料,了解深度学习在国产计算平台上的加速环境与加速硬件的现状及存在的问题,明确了两种加速技术的实现途径。第二,研究主流GPU通用运算平台的技术结构,针对国产计算平台的特点,选择合适的GPU,通过交叉编译、内核模块替换与系统环境变量设置等技术途径,实现了从源码级别构建支持国产计算平台的GPU通用运算环境。第三,针对国产FPGA逻辑资源不足与深度学习计算需求之间的矛盾,通过矩阵压缩与数据量化两种方法对深度学习中的卷积神经网络进行优化处理,在国产FPGA上实现了对VGG卷积神经网络的优化。实验表明,在国产计算平台上使用GPU加速技术和国产FPGA加速技术,二者的计算效率相较国产CPU分别提升了 48倍与284倍,成功地实现了深度学习的加速计算,推进了深度学习在国产计算平台上广泛应用的进程。