【摘 要】
:
深度卷积神经网络(DNNs)实现了高精度预测判定,在诸如语音识别、图像识别和自然语言处理等方面得到了广泛的应用。卷积神经网络存在计算密集和存储密集的特点。虽然高度并行的
论文部分内容阅读
深度卷积神经网络(DNNs)实现了高精度预测判定,在诸如语音识别、图像识别和自然语言处理等方面得到了广泛的应用。卷积神经网络存在计算密集和存储密集的特点。虽然高度并行的设备有效地满足了计算的需求,但能效仍然是一个需要解决的问题。在基础工作阶段,我们首先完成了一个包含三级存储层次(网络、片上缓存、片外存储)的模拟框架,可以对多种加速器结构进行模拟,并评估比较不同网络中对计算序列和数据布局的各种组合所产生性能功耗差异。之后,我们实现了一个脉动阵列结构的卷积神经网络加速器,平衡I/O与计算速度,对卷积操作进行并行计算。并对不同规模下的脉动阵列进行了性能与功耗评估,对脉动阵列的可扩展性进行了分析。在此基础上对加速器进行了存储以及计算上的优化。在计算优化方面,我们设计优化PE结构以实现权值重复优化,并设计两阶段阵列流动,用来完成先累加后相乘的步骤。过程中减少乘法操作,降低了片上的计算功耗。同时,利用量化后的权值索引进行流动,降低带宽需求。在存储优化方面,我们提出两个新的卷积计算模式:NHWCfine和NHWCcoarse。基于权值可缓存于片上这一事实,充分利用特征值数据的重用以减少对于特征值的片下访存。另外结合新的运算序列重新排布特征值数据,以突出局部性,最大化的利用合并访问及带宽,提供连续访存序列。应用各种卷积层的实验表明,新的计算模式模式比各种网络上的原有的传统双向划窗计算模式更节能。总能耗降低了4.10倍。片外存储器访问延迟的减少高达5.11倍。而且,当网络越来越深时,优化的效果也更加明显。
其他文献
文本分类是自然语言处理领域的一个重要研究课题,其主要任务是将输入文本自动归类。随着互联网技术的快速发展,如今全世界每时每刻都有数以亿计的文本信息在互联网中产生,其
高管作为企业中的核心人员,对于上市公司各个方面的决策均起到了重要的作用,一位优秀的高管更将会带领公司前行走向新的征程,当上市公司的高管发生变更时,会给公司内部的治理
2004年起,中国大力倡导培养合格的机构投资者。目前,机构投资者已经成为了中国股市投资者的中坚力量。其中不同类型的机构投资者的投资理念以及投资风格存在着较大的差异。对
工业控制系统是一种面向服务的信息处理系统,担负着不同场景下的监视、数据采集、控制、解算结果等任务,系统中通常包含许多异构实现的处理节点。近年来,工业控制领域的信息
实际工况的混凝土结构,在一些环境下可能会受到化学腐蚀作用,且混凝土在较大的荷载作用下内部可能有微裂缝的产生和扩展,会加快化学腐蚀速度,使混凝土损伤劣化更为严重。混凝
氧化石墨烯优秀的光学特性、超宽的透光范围以及较高的损伤阈值,弥补了传统可饱和吸收体的不足,成为制备吸收体的理想材料。本文采用改进的Hummers法制备出氧化石墨粉末,经超
据统计,我国是世界上农药生产及用量大国,因农药残留导致的环境污染和食品安全问题不容乐观,对人体健康造成了严重的威胁。现有的农药残留检测方法中,以色谱法为代表的仪器分
数据表示是机器学习、数据挖掘和模式识别等领域共性的基础问题之一。随着数据采集等相关技术的快速发展,许多实际应用场景中普遍存在着高维大数据。同时,数据采集过程中不可
聚偏氟乙烯-三氟乙烯(P(VDF-TrFE))是一种具有压电效应的极性高分子材料,利用其良好的压电、热电和铁电性能可制备压电传感器、激励器和换能器等器件。为深入探究P(VDF-TrFE)
随着社会的发展,我国对科学、技术的需求越来越高,因此对科学、技术的发展要求也越来越高,因此社会中需要人才与创新,高新技术产业园就是社会发展的必然产物,人才在这个孵化