论文部分内容阅读
卷积神经网络(CNN:Convolutional Neural Network)计算量较大,为达到快速处理数据的目的,需借助硬件手段进行加速。因此,利用现场可编程门阵列(FPGA:Field Programmable Gate Array)并行计算的架构特性,提出了基于FPGA的并行计算加速策略。该策略采用的具体方法包括:合理分布片上内存与片下存储,降低数据读取延迟;采用多通道并行流水结构加速卷积操作;通过卷积层数据共享减少访存延迟。利用PYNQ-z2开发平台加速卷积神经网络YOLOv2,最终实现目标物体