基于FPGA的高性能图计算架构FabGraph的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:gardeeen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图(Graph)是一种以顶点和边构成的包含多种信息的复杂数据结构,图计算(Graph Computing)则是在图数据中寻找一定关系的一类计算的总称。图计算将现实条件中的关系属性抽象为图数据结构并进行复杂计算,而如何在极大规模的图数据集上完成高性能的计算是图计算需要解决的关键问题。可编程逻辑门阵列(Field-Programmable Gate Array,FPGA)作为并行化的计算密集型加速硬件,拥有卓越的性能功耗比,对比基于GPU和GPU的图计算架构具有独特的优势,因此将FPGA应用于图计算、实现图计算的加速,具有巨大的潜力。基于FPGA的图计算研究已经开展多年,期间出现了不少优秀的算法,ForeGraph就是最近提出的优秀算法之一。ForeGraph算法的核心架构基于GridGraph图划分方法和FPGA硬件加速,它充分利用FPGA片内存储系统(Block Random Access Momery,BRAM)的高效随机访存能力,在多块FPGA开发板上实现了基于简单环结构的图计算架构。但是,当将ForeGraph在单一FPGA开发板上实现时,则在数据预处理、数据调度策略、BRAM和数据存储结构等方面均存在不足。针对ForeGraph在单一FPGA开发板上实现存在的上述问题,设计了高性能单FPGA开发板图计算架构FabGraph,FabGraph虽然仍是基于传统外存储设备、流水线和边流方式进行图计算,但是通过2级缓存(Cache)结构和基于窗口滑动的希尔伯特(Hilbert)调度算法,运算核心(Processor Kernel,PK)聚集及其交错运行,解决了ForeGraph数据膨胀和数据本地性无法利用等核心问题。在单一FPGA开发板上实现了FabGraph,并通过性能分析,在实现过程中有针对性的对其性能进行了改进和优化,如除BRAM外还利用了新型FPGA的URAM(Ultra Random Access Momery)、Hilbert调度算法、2级Cache架构、PK聚集及其交错运行、BRAM间高带宽传输、虚拟流水线等。利用现有的图数据集对FabGraph进行了性能仿真和测试,仿真测试过程中,内存(DRAM)带宽采用DRAMSim2来模拟,计算效率则通过Vivado仿真实现。对比测试发现,相同情况下,FabGraph的性能在大多数测试集上比ForeGraph高出1~3倍,证明FabGraph达到了研究目的。
其他文献
“公众参与立法”又可称为“公众立法参与”或“立法公众参与”。公众参与立法即公众在立法领域的参与活动,将公共事务的范围限制于立法事务,可以视为“立法参与”和“公众参
近年来,中俄文化交流日益密切,翻译成汉语的俄语作品也越来越多,笔者节选苏联作家尤里·鲍里索维奇·留里科夫的《爱情的蜜汁与毒药》进行翻译,作家在写爱情的时候对一些社会
社交媒体已经从官方的消息发布平台发展成为大众交流和情感表达平台。基于自然语言处理技术的社交媒体分析、观点抽取和情感分析等研究显得愈发重要。在发现社交媒体文本中蕴
生态数据存储规模随着生态学领域研究尺度的拓展不断扩张,而传统中心化数据存储方式面对日益庞大的海量生态数据越来越难以为继,观测数据易重复、易篡改、难共享以及存储成本
合成孔径雷达(Synthetic Aperture Radar,SAR)自提出以来就作为一种非常重要的探测成像手段被广泛使用。自提出至今,SAR广泛应用于国防、城市道路检测以及自然灾害监控等方面
切换正系统是一类特殊的切换系统,在工业生产实践中具有广泛的应用。切换正系统的优化和L1增益问题在控制科学与工程领域一直是一个热门研究课题,其对于生产过程自动化、自动
航空发动机是飞机的核心动力装置,针对航空发动机的故障预测与健康管理,对于提高飞机的安全性和降低飞行的成本有着至关重要的作用。发动机剩余使用寿命的预测方法是近年来飞
当前我国经济处于转型升级向高质量发展的时期以及在全球向智能制造变革背景下,制造业中的许多中小企业面临的市场形势发生较大变化,多品种、中小批量的市场需求成为常态。在
人们对个人隐私的关注不断提高,然而现实中许多业务对民众的个人信息却保护不足。例如,在快递面单上,以明文的方式显示着用户的诸多个人信息,因此,有研究者使用分段加密来防
近年来,服务器内存容量的迅速扩大使得应用程序逐步将更多数据存入内存中,这也引发一个新的计算模型——内存计算。内存键值存储系统因其语义通用、使用方便而备受关注,如Mem