面向卷积神经网络的高并行度FPGA加速器设计

来源 :计算机应用 | 被引量 : 0次 | 上传用户:chengm1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大多数基于卷积神经网络(CNN)的算法都是计算密集型和存储密集型的,很难应用于具有低功耗要求的航天、移动机器人、智能手机等嵌入式领域。针对这一问题,提出一种面向CNN的高并行度现场可编程逻辑门阵列(FPGA)加速器。首先,比较研究CNN算法中可用于FPGA加速的4类并行度;然后,提出多通道卷积旋转寄存流水(MCRP)结构,简洁有效地利用了CNN算法的卷积核内并行;最后,采用输入输出通道并行+卷积核内并行的方案提出一种基于MCRP结构的高并行度CNN加速器架构,并将其部署到XILINX的XCZU9EG
其他文献
针对网络安全态势预测模型预测精度不高、收敛较慢等问题,提出了一种基于改进粒子群优化极限学习机(IPSO-ELM)算法的预测方法。首先,通过改进粒子群优化(PSO)算法中的惯性权重和学习因子来实现两种参数随着迭代次数增加的自适应调整,使PSO初期搜索范围大、速度高,后期收敛能力强、稳定。其次,针对PSO易陷入局部最优的问题,提出一种粒子停滞扰动策略,将陷入局部最优的粒子重新引导至全局最优飞行。改进粒
针对目前构造达到C-M界的二元局部修复码(LRC)的相关研究已经较为充分,但在一般域上还相对较少的问题,研究了一般域上LRC的构造。首先,提出了通过射影几何理论确定sunflower中元素个数的方法。其次,通过不相交局部修复组刻画LRC,从而清楚地描述LRC的码长、维数和局部度等参数。最后,在具有不相交局部修复组的校验矩阵的基础上,利用sunflower构造了两类一般域上最小距离为6的LRC,其中
目的探讨重症监护患者发生急性应激障碍的影响因素,为重症监护患者进行心理护理及心理支持提供依据。方法选取2018年11月至2019年5月河北省唐山市某三级甲等医院重症监护患者
针对在工业自动化生产过程中,光线不佳,工件尺寸较小等外在因素导致的多种工件检测精度不高以及特征提取困难的问题,提出一种改进更快速区域卷积网络(faster region with convolution neural networks,Faster RCNN)的工件检测算法。在原有网络基础上,结合自动色彩均衡算法增加图像预处理模块,改善光照不均匀问题,获得高质量图像。此外,通过增加锚点个数并修改其
随着许多计算密集型应用的出现,移动设备因其有限的计算能力无法满足用户时延、能耗等需求。移动边缘计算(MEC)通过无线信道将用户的任务计算卸载到MEC服务器,从而显著减少任务响应时延和能耗。针对多用户任务卸载问题,提出了基于稳定匹配的多用户任务卸载策略(MUTOSA),在保证用户的时延要求下达到能耗最小化。首先,在综合考虑时延与能耗的基础上,对独立任务场景下的多用户任务卸载问题进行建模;然后,基于博
目的:比较研究促性腺激素释放激素与地屈孕酮片用于子宫内膜息肉(EMP)电切术后复发的预防效果。方法:选取2018年7月-2020年8月行EMP电切术的患者78例,随机分为两组,各39例。
目的了解温州市院前急救创伤患者流行病学的变化趋势,分析其特征,为完善院前急救创伤救治体系及提升院前创伤患者抢救成功率提供数据支持。方法对2016年1月至2019年12月温州
为满足科技期刊网站用户的人性化本质需求,提出了科技期刊网站的用户体验优化策略。基于人性化用户体验理念,通过分析科技期刊网站在内容形式单一、多媒体融合程度不高及与移