基于快速卷积算法的UNET网络硬件加速器的研究与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:zzmaazhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,卷积神经网络在处理各项计算任务中效果显著,同时也朝着网络深度加深、卷积核尺寸减小和更改网络结构解决梯度问题的方向飞速发展。作为全卷积神经网络的衍生网络,UNET在图像分割和图像降噪领域效果显著,但是其较深的网络结构在训练和推理过程中对算力和存储的需求巨大。在UNET网络训练过程中可以依赖于高性能的计算集群绕过限制,而在推理过程中则会受到诸如计算精度、速度与存储空间等方面的限制,高性能计算集群显然无法满足。使用FPGA对UNET的推理过程进行计算加速,不仅能够满足复杂的推理环境,还能够充分发挥FPGA的高速、高能效比和高灵活性的特点。本文首先介绍了UNET网络的组成部分,并针对硬件计算特点对原始的UNET做了适度的修改。通过使用Tensor Flow开源网络框架训练UNET,并对获得的参数做移位定点量化,使其可用于硬件加速器推理过程。其次考虑到FPGA平台可提供用以乘法的DSP数量有限,能够降低乘法数的快速卷积算法被引入到本文工作中。针对使用的Winograd快速卷积算法的特点,采用了针对转换和反转换过程的快速实现硬件方案,并讨论了不同数据的转换方式。通过对Winograd的循环过程的研究和优化,提高计算并行度的方向被确定,同时通过循环交换来提高读写数据的性能。针对片内外数据交互,研究了不同的数据复用模式下DRAM的访问量,对使用快速卷积算法的UNET网络确定了最小化DRAM访问的数据复用模式。最后,根据上述工作,本文提出了一种使用快速卷积算法的UNET网络硬件加速器IP。IP的并行度可根据资源使用情况实现可配置化,同时内部包含的计算单元在不同层的工作任务中得以复用。专用的存储分块和基于流水线的设计,提高了加速过程的计算效率,最终体现在加速器推理时间和推理功耗的降低。本文提出的加速器IP使用硬件描述语言实现,部署在ZC706评估套件上,并进行了UNET网络推理加速实验。实验证明,使用了快速卷积算法的加速器IP推理时间约为3.66s,功耗为22.936W,平均算力可达55.6269GMAC/s(等效值)。与之相比,在同样的推理任务下,CPU平台的推理时间为FPGA加速器的3.15倍,GPU平台的能耗比仅为FPGA加速器的一半。这证明FPGA加速器IP达到了对计算加速的目的。最后针对该加速器IP做了资源的数学建模,并分析了设计的可改进方向。
其他文献
利用地震波形资料来反演地球内部结构是地震学成像领域最先进的反演方法之一,为了克服噪音和非线性对反演收敛速度的影响,需要选择满足一定条件的地震波形时间窗口进行反演。然而传统的时窗拾取方法已不能满足海量数据反演时的效率要求,需要发展更加智能、高效的波形拾取方法。近年来,人工智能技术在各个领域都得到广泛的应用。基于神经网络对数据特征的学习能力,本文采用了一个全卷积神经网络,用以自动拾取复杂的地震波信号。
转录暂停是基因转录过程中的重要限速步骤,常发生在转录延伸开始后25-50nt的位置。有研究指出,DNA序列特征和转录因子的反式作用是决定转录暂停的两个主要因素,暂停和暂停释放的调控在细胞分化发育过程的基因表达中发挥重要作用,转录暂停的异常释放与癌症发生相关。目前对于转录暂停的具体机制和调控信号尚未有完整的了解,对全基因组尺度转录暂停的发生规律以及与基因表达谱的关系也不甚清楚。本论文利用GRO-se
目的:1.本研究基于骨性Ⅱ类错畸形患者正颌手术前后上气道三维模型的构建,对该类患者舌骨位置与上气道空间受不同正颌术式的影响以及它们的稳定性展开分析。2.通过采用锥形束CT(CBCT)及头颅定位侧位片分析骨性Ⅱ类患者单纯颏成形术后颏部形态、上气道空间及舌骨位置的变化及其变化的相关性,对骨性Ⅱ类病人上气道本身、上气道附近组织受单纯颏成形术的影响展开分析,从理论层面指导确定骨性Ⅱ类错病人的临床治疗技术筛
生物标志物是指在正常生理或病理过程中可以客观测定和评价的特征性指标,可用于疾病的诊断和分类、发展进程的监测、疾病疗效评估、药物开发和个体化治疗方案的制定等多个方面。生物标志物的检测分析不论是对于基础生物学研究还是临床检验都至关重要。近年来,除了已经得到广泛应用的酶联免疫吸附试验(enzyme linked immunosorbent assay,ELISA)、聚合酶链式反应(polymerase
学位
针对兰州重离子加速器放射性束流线(RIBLL2)由于地基沉降等因素造成的传输效率较低问题,根据其上4块C型二极磁铁重量大、结构复杂、起吊困难等特点,设计了一套准直测量调节装置,对4块C型二极磁铁重新进行准直。同时利用SolidWorks三维软件建立其实体模型后导入ANSYS Workbench软件进行有限元静力学分析,查看变形情况及应力分布,确保结构稳固可靠。现场准直调节结果表明,该装置结构紧凑、
蓝莓果渣中富含酚类物质,其中花色苷是蓝莓果渣增值研究的主要对象,相较于传统检测方法昂贵、费时费力、有毒且易污染环境,近红外光谱技术具有快速、零污染、低成本的技术特点,可作为蓝莓果渣花色苷的新检测方法,但目前近红外光谱技术关于蓝莓果渣花色苷的研究甚少。本文利用近红外光谱技术对北陆、蓝美1号、灿烂三种蓝莓果渣进行检测模型的优化研究,所研究内容主要有如下:(1)针对蓝莓果渣品种分类模型研究较少的现状,利
学位
"强动力、长续航、零排放、高智能"。近日,首次出口的6台三一纯电动无人矿车SKT90E,以及18台SKT90S宽体车正式交付泰国客户。这也是泰国首批引进的纯电动矿车产品,标志着当地行业正式进入电动时代。交付仪式现场,24台崭新的三一大矿车整装待发,接受现场各位客户和来宾的检阅。
期刊
沉水植物(SMs)和仿生植物(AMs)均已广泛应用于水生态工程,以改善富营养化水体的水质。但已有研究仅倾向于SMs或AMs的单一使用,在高度富营养化的水生生态系统中,爆发的蓝藻往往会干扰SMs的生长,从而影响SMs的净化功能;而AMs主要运用表面附着的微生物膜来净化水体,但微生物活性会因碳源缺乏而受到影响。本课题的目的是研究SMs和AMs协同效应,基于这种协同效应提出一种净化富营养化水体的策略。于