基于FPGA的多核可扩展卷积加速器设计

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:cctime
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决卷积神经网络计算效率和能效较低的问题,提出并设计一种使用定点数据作为输入的卷积加速器。加速器支持动态量化的8 bits定点数据的卷积计算,通过采用分块计算的策略和改进的循环计算顺序,有效提高计算效率;支持激活、批标准化(BN)、池化和全连接等计算;基于软硬件协同设计的思路,设计包含卷积加速器和ARM处理器在内的SoC系统。提出一种将加速器进行多核扩展的方法,提高算力和移植便捷性。将加速器部署在Xilinx ZCU102开发板上,其中单核加速器的算力达到了153.6 GOP/s,在计算核数目增加到4个
其他文献
通过对通航电力巡检流程并结合实际场景对历史运行数据进行分析,对高压电塔点及电网线与无向图的相似性进行对比研究,建立直升机电力巡检结构的拓扑模型。在此基础上,考虑巡检直升机的最大里程限制和图的DFS(深度优先遍历)算法思路,提出一种结合实际场景的连续遍历待巡检网络算法。分别应用到几种不同类型的电力巡检路径中,用计算机仿真技术真实模拟出直升机在电网巡视中的航迹情况。仿真结果表明,优化后的算法在某种程度上实现了巡检任务的一致连续性,将巡视效率提高了3.2%。
为解决舌象分类算法容易受到面部无关信息以及舌部杂质信息的干扰,造成分类准确率下降的问题,设计一种融合注意力机制的多阶段舌象分类算法。通过舌部定位阶段提取不同感受视野的舌象特征进行融合,获得舌部区域,减轻面部信息干扰;在舌象分类阶段基于舌部区域,借助注意力机制模块抑制舌部杂质信息的干扰,提取精准特征,进行分类。将算法得到分类结果的P、R、F值与KNN、SVM和Inception-V4的作比较,结果均