论文部分内容阅读
最近几年,卷积神经网络(Convolutional Neural Network,CNN)在一些应用领域取得了很大的成功,特别在计算机视觉方面,它有着广泛的应用。随着物联网技术的发展,越来越多的设备需要捕捉图片或视频,市场对具有高精度和实时目标识别功能的嵌入式系统有很大的需求,比如无人驾驶汽车和机器人视觉等。然而,卷积神经网络是一种计算密集型和资源消耗型的方法,因为功耗和资源的限制,它很难被集成到嵌入式系统内,例如手机、智能眼镜和机器人等。FPGA是一种最为理想的提高卷积神经网络运算速度的平台,它具有高性能、可定制、功耗低和开发周期短等优势。Zynq全可编程SoC集成了双核ARM Cortex-A9多核处理器和可编程逻辑,为算法的实现提供了很大的灵活性和优异的性能表现。为了将卷积神经网络实现到嵌入式系统中,本文研究了基于Zynq平台实现卷积神经网络的方法,并与其它硬件平台进行比较。本文的研究内容有:1、Zynq芯片的结构和基于Zynq平台的设计流程。2、CNN内存在的并行特性和并行特性实现方法。3、根据并行特性设计硬件加速器结构,并根据特定的CNN对其进行优化。4、CNN加速器的RTL级设计。5、在Zynq平台上通过软硬件协同方式实现CNN。本文最后进行了实验对比。首先,将本设计与通用计算机和双核Cortex-A9处理器作比较,结果显示:有硬件加速时,Zynq平台的性能功耗比为48 images/Joule,分别是双核Cortex-A9处理器、台式机和笔记本电脑在纯CPU运行时的8倍、16倍和9.6倍。其次,与其它高性能CNN加速器比较,虽然没有达到更高的单位性能,但是本设计具有很大的价格优势。最后,根据对比结果,本设计能以低成本的硬件平台实现CNN,并且可以达到很高的性能功耗比,能满足嵌入式系统低功耗和低成本的需求。