基于3D堆叠内存的高效可重配置深度卷积神经网络加速系统

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:Cyril
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度卷积神经网络(Deep convolutional neural network,DCNN)常被用于处理机器视觉的任务,包括目标检测、场景标记等。DCNN具有计算量大、数据量大、模型结构复杂多样的特点,这些特点给异构加速带来挑战。目前,大多数DCNN加速器在有限的片上资源下,使用固化的数据流处理不同的DCNN模型计算,导致性能和能效下降。
  针对上述问题,提出了兼顾能耗和性能优化的灵活的可重配置DCNN加速系统FlexTetris。FlexTetris在基于3D堆叠内存实现的近数据处理架构下,使计算更靠近存储位置。3D堆叠内存支持大容量的数据存储、高带宽和低能耗的DRAM访问。同时,在3D堆叠内存逻辑片上集成大规模的处理单元(Processing Element,PE),为DCNN计算提供了高并发处理。FlexTetris采用了灵活的数据流调度策略,有效地利用了3D堆叠内存的特点和DCNN特定的数据重用,缓解在3D堆叠内存场景下存在的能耗和性能瓶颈问题。在FlexTetris的PE内,数据以特定序列流入乘法累加单元,利用乘法累加单元内的数据重用有效缓解能耗瓶颈问题。FlexTetris采用多维度展开的分组映射来将计算任务分配到不同的PE中,提高了总PE利用率来缓解性能瓶颈问题。同时,循环分块和重排策略优化了FlexTetris多级存储结构中不同级别之间数据传输,进一步缓解能耗瓶颈问题。最后,FlexTetris在主处理器上实现了能效分析工具。通过能效分析工具来获得不同DCNN模型的能效最优的调度方案,并重新配置FlexTetris控制单元来支持最优调度方案的实施。
  实验采用多种DCNN模型进行测试。实验结果表明,相比于基于3D堆叠内存实现的DCNN加速系统Tetris,FlexTetris的平均能耗下降了31.4%,平均性能提高了12%。相比于使用低功耗DRAM的DCNN加速场景,FlexTetris的平均能耗下降了43.9%,平均性能提升了10%。因此,FlexTetris的灵活性更能够从3D堆叠内存的特性中获益。
其他文献
互联网即将进入5G时代,智慧终端和传感器等设备产生的数据呈指数级增长,对云基础设施的需求不断扩大。键值存储系统作为非结构化数据库的代表,在数据中心扮演着举足轻重的角色,其主要存储引擎是日志结构合并树(Log-StructuredMerge-Tree,LSM树)。但测试发现,由于LSM树的L0层SST文件的键范围存在重叠,加上L0层容量控制机制,使得LSM树的合并操作会引起系统写性能周期性波动。  
学位
新型快速存储设备NVMeSSD(Non-volatile Memory Express SSD)以其高性能,低延迟的特点,逐渐替代传统硬件设备成为构建大规模高性能存储系统的首选。硬件设备变更推动了I/O软件栈的变革,为了降低I/O路径的软件开销以及充分发挥硬件性能,NVMe精简软件栈逐渐成为NVMeSSD等高性能存储设备的标配。然而无论内核NVMe软件栈还是用户态NVMe软件栈均以减少I/O请求处
在全球数据量呈现爆炸式增长的大数据时代,传统存储系统架构已成为瓶颈。NVM(Non-Volatile Memory)的出现,为解决传统存储系统内外存之间的性能鸿沟、满足数据密集型应用对内存访问的需求带来了希望。在DRAM(Dynamic Random Access Memory)与NVM混合的架构下,由于NVM在不同应用场景下需要满足不同的内存需求,使得传统用户层的动态内存分配器不再适用,需要重新
手绘草图是人类进行思想交流的媒介,在沟通和设计中都扮演着重要的角色。近年来,深度生成模型在光栅图片生成领域迅速崛起,手绘草图的生成也受到了广泛关注。Sketch-pix2seq是目前手绘草图生成领域最受欢迎的一种生成模型,但它无法捕获组件的全局位置关系,当草图组件较多时,这一问题更为严重;同时现有的草图生成模型受VAE(Variational Auto-encoder)框架的影响,很容易生成细节表
随机写请求因I/O尺寸小、存储空间离散引起存储性能下降,F2FS文件系统可将写请求从随机转换为顺序而被广泛使用。而对于具有先擦后写等特性的闪存存储,写单元为闪存页,擦除单元为闪存块,因此基于闪存为存储介质的固态盘(SolidStateDrive,简称SSD)采用异地更新的方式写入数据,并基于垃圾回收对有效数据迁移、无效数据进行回收,增加了额外的读写开销,引起写放大问题。由于F2FS文件系统仅通过简
学位
随着深度学习技术日益成熟,越来越多深度学习解决方案,如人脸识别、语音识别、自动驾驶等,进入人们日常生活。研究人员发现深度学习模型极易受到对抗样本的影响,这些对抗样本只是在原始样本上添加轻微扰动,就能使深度学习模型输出错误结果。对抗样本的存在极大地影响了深度学习解决方案的运用。现有的防御对抗样本方法大多只能防御特定、已知对抗样本的攻击,并且防御成本极高。  针对目前防御对抗样本存在的问题,本文从对抗
学位
随着信息时代快速发展,数据量呈爆炸增长,大数据应用对数据存储的容量、性能和可靠性提出了更高要求。基于闪存的固态盘因具有高性能、低功耗等优点被广泛应用。但闪存采用多位堆叠及缩小制程等方法提高存储密度,致使读操作对闪存内数据的干扰加重,读干扰逐渐成为影响闪存可靠性的主要因素。因此,如何高效地进行读干扰管理以提升固态盘的性能和寿命,成为了研究热点。  读干扰管理的方法是将受读干扰影响严重的数据进行迁移,
学位
与传统磁盘相比,基于闪存的固态盘(SSD)由于高性能、低延迟等特性已被广泛使用在消费类和企业级存储市场。影响固态盘性能的因素之一是盘内完成从逻辑地址到物理地址转换的地址映射算法。随着闪存容量的快速增长,受限于价格、工艺、能耗、体积以及可靠性等多因素影响,固态盘内置RAM的增长速度落后于闪存容量的增长速度,引起内置RAM大小不足,导致地址映射算法中映射缓存不命中和映射条目替换加剧,带来额外的闪存读写
学位
基于闪存的固态盘(NAND Flash-based Solid State Disk/Drive)因其低延时、低能耗、高抗震等特点被广泛应用在便携式设备、个人计算机及企业级存储系统中,并逐渐替代传统磁硬盘,在存储市场占据重要地位。固态盘控制器通过成对的写入/擦除操作改变闪存单元电压以存储数据,每对写入/擦除操作都会对闪存单元造成可累积的磨损。然而,闪存单元能够承受的磨损是有限的,一旦足量的闪存单元
学位
海量小文件会对分布式存储系统的读写性能产生极大影响。在分布式存储系统中,针对小文件读写性能的优化工作主要采用聚合和缓存预取机制,但仍存在以下问题:(1)现有的小文件聚合机制没有充分考虑小文件负载序列的时序特征,造成聚合块内文件关联度较低;(2)固定的聚合块大小不能适应小文件大小范围多变的特点,导致小文件写性能下降;(3)现有缓存替换算法没有综合考虑文件访问时间、访问频率以及缓存价值,导致小文件读取