【摘 要】
:
目前,“人工智能热”带动了以图像识别、视频识别等为核心的计算机视觉市场,卷积神经网络作为图像识别领域常用的处理模型,对其前向传播过程的加速进一步成为了研究的热点。粗粒度可重构架构兼具高效性和灵活性,是加速卷积神经网络前向传播计算的理想平台。因此,本文基于已有可重构架构进行优化,实现对卷积神经网络前向传播计算的加速。本文以卷积神经网络前向传播过程的核心算子为加速目标,以提高阵列利用率和吞吐率为目的,
论文部分内容阅读
目前,“人工智能热”带动了以图像识别、视频识别等为核心的计算机视觉市场,卷积神经网络作为图像识别领域常用的处理模型,对其前向传播过程的加速进一步成为了研究的热点。粗粒度可重构架构兼具高效性和灵活性,是加速卷积神经网络前向传播计算的理想平台。因此,本文基于已有可重构架构进行优化,实现对卷积神经网络前向传播计算的加速。本文以卷积神经网络前向传播过程的核心算子为加速目标,以提高阵列利用率和吞吐率为目的,对粗粒度可重构架构REMUS-II的阵列结构和存储结构进行优化。具体研究内容包括以下几方面:(1)对图像识别领域的卷积神经网络前向传播原理进行分析,从理论评估和实验两个角度确定了其核心算子为卷积层;(2)通过分析卷积层的数据流特征,给出了结合卷积窗口并行与输出特征图并行的混合映射方案,并根据该映射方案对REMUS-II的阵列计算单元、阵列规模以及互连结构进行了优化,有效提高了阵列利用率;(3)基于卷积层数据存储量大、重用数据多的特点,提出了混合重用数据存储策略,并对REMUS-II的多层次片上存储结构进行优化,采用了多Bank的输入和输出缓存、多通道重用数据缓存及本地化权重缓存,并将缓存结构设置为乒乓缓存工作模式,从而有效地解决数据传输延时。AlexNet与VGG-16模型的RTL仿真实验结果表明,经过REMUS-II阵列结构和存储结构的优化设计,在工作时钟为150MHz时,阵列利用率达到87.41%,相比于优化前提高了8.41%;峰值吞吐率为119.95GOP/s,相比于优化前提高了19.95%。相比同类可重构处理器EMAX,本架构上核心算子执行吞吐率提升了1.34倍,阵列利用率提高了37.41%。
其他文献
在目前空战中,双机作战已经成为一种趋势,空空导弹是空战中使用最多的武器装备,通过对攻击区和命中概率计算,可以对空空导弹的性能进行有效地判断,因此双机协同空空导弹攻击
目的:本课题拟通过检测输卵管妊娠患者绒毛、输卵管黏膜及子宫内膜中Tspan5 mRNA的相对表达,探讨其与输卵管妊娠潜在的关联,为输卵管妊娠的发病机制提供新的思路。方法:实验
轮辙是在交通荷载和环境因素共同作用下产生的沥青道面永久变形,此种变形不仅会影响乘客的舒适性体验也会缩短道面结构使用寿命。因此,科学合理地评价道面轮辙不仅能预防由轮
大口径反射镜组件是实现ICF固体激光器打靶功能的关键性组件,它的主要作用是完成激光束的引导、传输和准直精度的调整。精密调整和结构稳定性控制是大口径反射镜设计中需要解
对大量分辨率不断提高的图像进行实时处理,给系统的存储容量以及传输带宽带来极大的挑战。在图像压缩的国际标准中,JPEG-LS具有无损压缩和近无损压缩两种功能,其中无损压缩在
我国农业生物灾害发生十分频繁,传统农药剂型在保障粮食安全时,也带来了一系列的环境安全问题。喜树碱(Camptothecin,CPT)对害虫具有不育和毒杀作用,对十余种病原菌有抗菌活
目的:回顾性分析术前无房颤的病态窦房结综合征患者植入双腔起搏器术后房颤的发生情况,探索右心房起搏比例(心房累计起搏百分比Cum%AP)对起搏器植入术后新发房颤的影响,并且
现代超标量乱序处理器广泛使用Speculative load机制来提前执行那些寄存器就绪但访存地址不确定的Load指令来提升处理器的性能,但是业界在采用CPI栈的思想进行处理器的性能评估时,并没有分析Speculative load机制对处理器CPI栈建模的影响。经过本文前期的仿真实验,发现Speculative load机制的使用对超标量乱序处理器性能的影响很大。因此,研究Speculative
本世纪,电化学储能问题是人类面临的重要社会挑战之一。高能环保型锂离子电池具有循环寿命长、比能量大、工作电压高、可快速充放电和无记忆效应等优点,因此被广泛应用在笔记
天维菌素是由浙江农林大学和浙江海正药业股份有限公司合作开发,具有自主知识产权的一类活性更优、毒性更低的新型十六元大环内酯化合物。生物活性测定表明,天维菌素类化合物