【摘 要】
:
随着各类新型CPU的研发与问世,计算机的计算性能和计算效率都有大幅度提升。然而半导体技术的物理性能却是有限的,没有办法满足持续增长的数据量对于CPU计算能力的需求。进入21世纪随着GPU(Graphics Processing Unit)和现场可编程门阵列(Field Programmable Gate Array)等用于专用计算的新型处理器和电子器件性能的不断提升,异构计算开始成为提升计算性能的
论文部分内容阅读
随着各类新型CPU的研发与问世,计算机的计算性能和计算效率都有大幅度提升。然而半导体技术的物理性能却是有限的,没有办法满足持续增长的数据量对于CPU计算能力的需求。进入21世纪随着GPU(Graphics Processing Unit)和现场可编程门阵列(Field Programmable Gate Array)等用于专用计算的新型处理器和电子器件性能的不断提升,异构计算开始成为提升计算性能的有效方法,并且逐步成为高性能计算(High Performance Computation)领域的重要组成部分。虽然FPGA在异构计算中扮演着越来越重要的角色,但其设计流程不仅效率低下,并且要求设计人员熟悉底层电路结构进而提高了使用的门槛。高层次综合(High-Level Synthesis)可以让开发人员用更熟悉的编程语言、高级别的抽象水平,更加高效地设计FPGA电路。在使用HLS工具(如Xilinx Vivado HLS)时,为了创建高性能的电路,需要特定的设计模式和技术(加入pragma指令)。此外,设计高效的并发和数据流结构需要对硬件有深刻的理解,无疑给程序员带来了更高的学习成本。就此问题本文提出了一套函数式并发编程范式,由C++模板实现,可以在FPGA上通过调整预定义参数快速实现并行流水线计算模型。该模式库的使用可以灵活适配算法中的并行结构和流式结构,大大提高了编码效率。而其中函数式语言本质上更加适合用于高级硬件的生成,因为它们的函数副作用有限,各函数模块可以直接映射到硬件流水线上。本文使用提出的函数库根据量子粒子群优化算法(Quantum Particle Swarm Optimization)的特性针对FPGA上进一步实现了优化。本文的贡献如下:(1)对高层次可综合(HLS)函数进行并行化分析,使用函数式编程对常见的并行化模型提出四种通用并行化算子的设计构想,提出了基于C++模板的硬件生成策略的高性能计算模式。可以在FPGA上仅通过修几个简单的参数便可实现高性能算法,具有很高的通用性;这四个算子分别是Tree OP、Map OP、Zip With OP和Reduce OP。对于提升频率导致一些复杂计算时间超过当前时钟周期的情况,本文对Reduce算子提出了一个长流水线结构改进方法。(2)使用本文提出的函数库针对QPSO在FPGA上的实现进行优化。因该算法具有大规模密集计算的特点,本文针对该特点对粒子进行分组展开,按照计算模式分析其数据流动并在FPGA上的实现进行了有针对性的优化。结果表明,QPSO在Xilinx Kintex Ultrascale xcku040上与Intel Core i7-6700 CPU相比,实现了高达123倍的加速比;设计实现向量距离平方和函数,该算法仅用一行代码完成实现,并通过该实验分析了各参数对生成硬件结构与硬件资源的影响。
其他文献
在人工智能研究领域,计划生成问题是研究热点之一。计划是指挥决策的重要内容,尤其在作战领域当中,现代战争形式逐渐转向以网络为中心的信息化联合作战,作战计划的自动生成是其中重要的一环。计划制定的关键步骤就是合理规划行动序列(Course of Action,COA)。COA本体作为描述计划相关概念的知识模型,为行动规划提供支持。传统的计划生成技术是对COA本体中的行动、状态实例进行匹配,组成行动序列方
人脸检测作为计算机视觉中的重要研究方向之一,得益于硬件设备的进步、深度学习技术的快速发展,其性能也得到了不断的提高。从传统的人脸检测方法发展到现今的基于深度学习的人脸检测方式,不仅仅在检测效果上有了一定的提升,而且在检测速度上有了很大的提高。在人脸检测的应用场景中会存在很多非受限的场景,在这些相对复杂的场景下,对于人脸检测的准确度有着很大的挑战,例如人脸遮挡、人脸模糊和小尺度人脸等。这些环境下的人
地磁异常判定是地磁学研究的重要分支,其主要目的是从地磁异常的角度进行地震前兆分析,进而为地震预报提供有效依据。目前,由江苏省地震局开发的地磁分析预报软件是国内实现地磁异常判定的主要工具。据统计,目前使用地磁分析预报软件进行地磁异常判定,进而实现地震预报的准确率约为50%,这一数值尚不能满足地磁异常与地震的准确对应。而奇异谱分析和ARMA模型拟合在强化原始数据特征、去除噪声等方面具有显著效果。因此,
造山型金矿床在世界上占据重要的地位。这类矿床形成于太古代到新生代时期,主要分布于活动大陆边缘地区,形成于挤压或者向挤压转换的构造环境中。在不同的垂向深度上可连续形成金矿,并且大多经历了绿片岩相变质作用。这类矿床是受控于脆韧性断裂体系的脉型或者浸染型金矿床。青沟子锑矿床位于华北克拉通的东部边缘。研究区位于辽吉活动带中,北临龙岗地块,南接郎林地块。该矿床经历了多期变形作用,形成了一系列的逆冲断层和正断
本文对吉林省和黑龙江省东部的延边-东宁地区晚三叠世-早侏罗世火山岩进行了锆石U-Pb年代学、地球化学、全岩Sr-Nd同位素及锆石原位O同位素的研究,查明了火山岩的形成时代和岩浆源区性质,探讨了延边-东宁地区晚三叠世-早侏罗世火山岩形成的构造背景及深部动力学机制。锆石U-Pb年代学结果显示,延边-东宁地区晚三叠世罗圈站组和天桥岭组火山岩的形成时代分别为213~206 Ma和221 Ma,早侏罗世南村
作为机器学习领域的重要分支,分类问题旨在训练阶段根据有标签的训练集训练一个模型,在分类阶段用该模型为无标签样本分配一个类标签。目前,在实际应用中广泛使用的有监督分类器有很多,贝叶斯网络分类器(Bayesian network classifier,BNC)由于其模型可解释性和优异的分类性能广为流行。朴素贝叶斯(Naive Bayes,NB)由于假设特征间互相独立,成为了最简单高效的BNC之一。NB
本次研究区位于中国西北新疆天山乡,剖面地层自下而上为中二叠世早期芦草沟组,中二叠世中期红雁池组,中二叠世晚期—晚二叠世早期泉子街组,共采集孢粉样品40个。研究发现,芦草沟组和红雁池组可见少量孢粉化石,泉子街组孢粉化石较丰富,通过分析对比孢粉化石与母体植物,自下而上划分了4个孢粉组合。根据植物生态学,尝试恢复该研究区的古气候和古环境。得到以下认识:1、芦草沟组上段的孢粉化石共计8属9种:Cyclog
近年来,随着生产力能力的飞速发展,生活水平逐渐提高,健康问题成为了当下人们关注的重点问题,尤其是视网膜眼底血管疾病成为了困扰当今世界千千万万人的主要眼科疾病。视网膜血管的长度、宽度、弯曲度、分支模式和角度等特有的医疗属性,可以用作诊断、筛选、治疗和评估各类心血管和眼科疾病。随着深度学习的快速发展,深度神经网络已经在计算机视觉任务和应用中展现出强大的特征提取能力,尤其是在医学图像分割领域上,效果十分
图像分类算法具有很高的科学研究价值,更是近年来计算机学科的研究重点。伴随着深度学习的高速发展,基于卷积神经网络的图像分类技术正在广泛的应用于大众日常生活当中。在服装图像分类任务中,由于服装的多样性、易遮挡、易褶皱和易变形等性质,使得实现准确的服装图像分类成为一个挑战。因此将基于卷积神经网络的算法与服装图像分类任务相结合具有重要意义。近些年,由于国内外学者对服装图像领域的关注,以及对卷积神经网络的不
田间杂草是影响农作物减产的重要因素之一,现阶段喷洒农药已成为农业杂草控制的主要手段,然而农民普遍采用无针对性的农药喷洒方式,完全忽略了杂草在实际农业生产中的分布情况。这不仅导致农药利用率低下、造成环境污染和农作物化学残留,而且还会引起农产品的安全问题。随着电子信息技术的发展,机器视觉结合图像处理技术已成为田间精准实时杂草和作物检测的有效手段,为特定地点杂草管理提供有价值的信息。然而传统的数字图像处