面向边缘侧深度学习的高效能存内计算关键技术研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:golf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物联网以及云计算等技术的成熟与普及,数以百亿的终端设备产生了规模庞大的数据,这些数据被上传至算力强大的云中心进行处理。基于此,以数据和算力为主要驱动力的深度学习算法得以飞速发展。深度学习算法因优异的泛化性在计算机视觉、自然语言处理、自动驾驶、机器人决策等领域得到了广泛应用,助力智慧生活和工作成为现实,具有广阔的发展前景。在传统的基于“云-端”架构的智能系统中,深度学习应用部署于拥有强大计算能力和良好可扩展性的云中心。设备端产生的海量数据需要通过网络传输到云中心以支持深度学习模型的训练和推理。然而,以云为中心的计算模式存在实时性不足、带宽有限和隐私泄露等问题。为了缓解上述问题,边缘计算应运而生。边缘计算可以承接下行的深度学习应用服务以及上行的终端数据处理任务,在数据产生源侧就近执行深度学习模型,显著地弥补了以云为计算中心暴露的问题。然而,边缘设备的硬件资源有限,部署计算和存储资源需求大的深度学习模型时面临着严峻的挑战。作为计算和存储密集型任务,深度学习算法运行时会在计算单元和存储单元之间频繁进行数据搬运。随着数据量的增大,这不仅对边缘设备的内存带宽提出更高的需求,导致“内存墙”问题,还会消耗大量的能耗,造成“能耗墙”问题。基于阻变式存储器(Resistive Random Access Memory,ReRAM)的存内计算(Processing-in-Memory,PIM)技术的出现,为以上问题的解决提供了契机。然而,目前基于ReRAM的存内计算技术发展尚不成熟,其底层特殊的硬件属性难以被上层的深度学习模型感知,造成运行效率低、无效计算多等诸多难以回避的问题,从而导致其性能和能耗优势难以被充分发挥。因此,本文重新思考了面向边缘侧深度学习算法的ReRAM存内计算系统,从深度学习模型压缩、深度学习执行引擎设计以及深度学习计算架构设计三个层次展开了研究:(1)针对深度学习模型部署于边缘设备需要的计算和存储资源不足的问题,本文提出了基于敏感性分析的深度神经网络(Deep Neural Network,DNN)权重/激活联合剪枝方法,该方法考虑模型的准确率、压缩率和硬件效率三个维度,通过基于聚类的DNN权重模式剪枝算法和基于稀疏行的DNN激活值剪枝算法同时移除冗余权重和激活值,既压缩了 DNN模型又裁剪了无效计算。实验表明,本文提出的权重/激活联合剪枝方法平均减少了 55%的存储空间占用和63%的计算量。(2)针对基于ReRAM的交叉阵列硬件结构无法有效支持DNN模型压缩算法的问题,本文提出了面向剪枝-量化联合压缩算法的ReRAM DNN执行引擎。首先,本文提出了基于细粒度块感知的剪枝-量化联合算法来压缩DNN模型。为了高效地支持该算法,本文进一步设计了一种可配置的基于混合操作单元的单比特ReRAM DNN执行引擎。实验表明,该执行引擎使得用基于细粒度块感知的DNN剪枝-量化联合算法压缩后的模型可以获得更高的性能和更低的能耗,且减少了占用的存储空间。(3)针对基于ReRAM的DNN存内计算结构存在许多无效计算的问题,本文提出了面向细粒度DNN权重模式重用策略的ReRAM执行引擎,该执行引擎主要包括重复权重模式感知的计算引擎和重复权重模式-操作单元映射表来实现存储空间压缩和计算重用。实验表明,该执行引擎相比先进的ReRAM DNN执行引擎平均提高了 1.73倍的性能,降低了 56.53%的能量消耗,节约了 52.95%的ReRAM空间。(4)针对边缘侧DNN缺乏整体高效能存内计算架构的问题,本文设计了基于ReRAM的高并行DNN存内计算架构,该架构为面向细粒度DNN权重模式重用策略的ReRAM执行引擎提供了支撑。另外,本文为该架构的处理单元设计了六级流水线,同时,以异步方式实现了 DNN模型的不同层之间的并行执行。实验表明,该DNN存内计算架构实现了高达2.74倍的性能提升,72%的能耗降低和70%的ReRAM空间节省。综上所述,本文从系统结构的角度出发,利用软硬件协同技术,在基于ReRAM的DNN存内计算专用加速架构的设计与研究方面进行了一系列关键优化,实现了在边缘侧高性能、低功耗的运行深度学习算法的目标,旨在推动边缘智能的发展与应用。
其他文献
背景据世界卫生组织统计,肺癌的患病率和死亡率均位于恶性肿瘤之首,以立体定向放射治疗(SBRT)为代表的高精度放疗在肺癌治疗的多个阶段发挥重要作用。高精度的放射治疗需要高适形度的剂量施照,呼吸运动引发的肿瘤运动是导致靶区变异的重要因素,统一的外扩边界可能导致放疗脱靶或者较大的放疗损伤。包含呼吸运动信息的四维CT(4DCT)能够较好显示个体化的肿瘤运动,在线锥形束CT(CBCT)扫描可以获得在线内靶区
学位
研究背景及目的胆管癌(Cholangiocarcinoma,CC A)是一种发生于胆管的高度侵袭性肿瘤,按解剖学分类,由肝内型胆管癌(iCCA)、肝门部胆管癌(pCCA)和远端胆管癌(dCCA)三种亚型组成,由于其恶性程度高,预后极差。世界范围内胆管癌的发病率较低,故目前对其研究较少,但亚洲地区尤其中国发病率有上升趋势,且胆管癌由于发病隐匿,常规体检不易发现,故发现多属晚期,根治性手术率低,即使行
学位
期刊
非霍奇金淋巴瘤(Non-Hodgkin lymphoma,NHL)是一组具有高度异质性的淋巴组织恶性增殖性疾病,是血液系统最常见的恶性肿瘤之一。弥漫大B细胞淋巴瘤(Diffuse large B-cell lymphoma,DLBCL)是最常见的侵袭性NHL,占所有初治NHL的30%-40%,在形态学、生物学、免疫表型、遗传学及临床表现等方面均表现出高度的异质性。随着以利妥昔单抗为代表的新型分子靶
学位
研究背景:阿尔茨海默病(Alzhermer’s disesase,AD)是引起痴呆最常见的类型,其病理特点主要是过度磷酸化的tau蛋白堆积形成的细胞内神经纤维缠结和淀粉样蛋白β(Amyloidβ,Aβ)组成的细胞外淀粉样斑块沉积。有毒性的Aβ肽是由淀粉样前体蛋白(amyloid precursor protein,APP)经过β-和γ-分泌酶连续切割产生的。尽管目前针对Aβ开发的药物尚未成功,但淀
学位
研究背景目前,颈动脉硬化斑块是缺血性脑疾病的重要病因,其在全球的患病率逐渐升高,已经引起了越来越多的关注和研究。识别症状性斑块对于病人的治疗和预后有着至关重要的作用。随着技术的发展,人们研究了症状性斑块与狭窄程度、斑块成分等的相关性,并且很多学者也研究了先进的成像技术在探究症状性颈动脉斑块方面的应用。近几年,血管周围脂肪对动脉粥样硬化斑块的形成和促进的观点引发了新颖性、创新性的关注,并且其可以无创
学位
面对现实生活中爆发式增长的图像数据,基于计算机视觉的图像分析备受人工智能等领域学者的广泛关注。其中,图像视觉关系理解是图像分析的重要分支,旨在挖掘图像内容中所蕴含的视觉关系,是诸多实际应用,比如服装推荐、智能机器人、自动驾驶等,所需的基础技术之一。对视觉关系理解有需求的图像是多样的,根据图像所包含物体的个数,可将图像大致分为两类:简单图像和复杂图像。简单图像往往包含单个物体,且其背景较为干净;复杂
学位
世界正在进入以新一代信息技术驱动发展的重塑时期,人工智能(AI,Artificial Intelligence)作为其中重要的势能技术,具有激活实体经济溢出带动性的“头雁效应”,对构筑国家科技影响力具有举足轻重的意义。中国于2017年发布《新一代人工智能发展规划》,将人工智能正式上升为提高国家竞争力的重大国家发展战略,其相关的经济形态进入快速发展的扩张期。2021年发布的《中国互联网发展报告》显示
学位
随着国民审美水平的不断提升,人们追求时尚穿搭的需求日益凸显。然而,并不是所有人都具有一定的审美认知。因此,自动化服装搭配成为人们日常生活中的迫切需要。同时,现实中的搭配服装设计往往需要设计师手动完成,费时费力。因此,自动化搭配服装设计也值得我们密切关注。此外,在现实生活中,人们通常需要对感兴趣的服装进行试穿,并根据试穿效果决定其是否购买服装。然而,在线上购物时,由于空间的局限性,用户难以获得服装的
学位
水凝胶具有含水率高、力学性能可控、孔隙率高等优良特性,被广泛应用于生产生活的各个领域。在多数情况下,水凝胶处于热力学平衡态,在外部环境不变时,其结构和性质一般可以认为是稳定的。但是在生命体中,许多复杂功能的实现依赖于动力学控制的结构,并且这些结构通常处于非平衡态,只有通过不断输入能量才能存在并发挥作用。为了构建类似生命体的智能体系,研究者将非平衡过程引入水凝胶中,获得了具有预编程特性的瞬态水凝胶材
学位