论文部分内容阅读
伴随着深度学习掀起的新的机器学习热潮以及大数据时代的到来,卷积神经网络已广泛应用到图像分类、人脸识别、物体检测等多种应用领域。为了获得更强的特征学习与特征表达能力,卷积神经网络模型的深度正在不断加深,综合考虑到实时性、功耗和可扩展性,现有通用处理器CPU和GPU已无法较理想地满足要求。由于FPGA具有配置灵活、高度并行、低功耗和设计灵活等特点,本课题基于FPGA开发平台对深度卷积神经网络的加速展开研究。本课题主要从并行和流水两大方面深度挖掘深度卷积神经网络模型的潜在可加速特性,并提出利用相关调整参数重新调整深度卷积神经网络的计算结构,在计算层间形成了高效率的流水线,有效地减少了中间结果的存储空间需求,同时采用填充元素自动过滤策略、卷积计算二次集中累加策略等对突出计算瓶颈进行了有效缓解。实验数据显示,在本课题实验环境下,同一卷积神经网络模型基于FPGA的实现,在工作时钟频率为250MHz,DSP Blocks占用比为13%,对图像数据传输带宽仅为0.15Gbps的情况下,计算处理速度是通用CPU的18.42倍,而整体系统功耗却不到通用CPU芯片的30%。实验结果表明,按照本课题设计思想调整后的卷积神经网络计算结构,更有利于在FPGA上高效并行流水化实现,能大大提高运算处理速度并有效降低系统功耗。可在此基础之上,尝试对更大规模的深度卷积神经网络模型进行性能上的大幅度提升,以满足复杂应用场景下的低功耗、高实时性要求。