基于鲲鹏处理器的LAPACK对称矩阵方程求解例程的性能优化研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:zgjcq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高性能计算解决的问题不断增多,对计算架构多样性的需求也在不断增加。2019年,华为推出了首个基于ARM架构的国产处理器鲲鹏920,它高性能、高吞吐、高集成和高能效的优势可以为更多的企业和研究机构构建高性能、低功耗的新计算平台。面对高性能计算应用性能的挑战,除了可靠的硬件还需要依赖高性能的软件如编译器、数学库、MPI通信库等,尤其是线性代数库。线性代数中的对称矩阵方程求解问题常出现在工程领域,如流固耦合问题、航空航天中的动力学问题等,并且多为大规模稠密对称矩阵,使用LAPACK库的对称矩阵方程求解的相关例程加速计算,可以有效地缩短计算时间。但是当前对称矩阵的相关研究主要针对特征值计算和矩阵分解的问题,并且大多基于X86架构进行研究,对方程求解以及基于非X86架构的研究非常少。此外,目前基于鲲鹏架构的软件生态仍旧匮乏,尤其是LAPACK中关于对称矩阵方程求解的相关例程在鲲鹏架构上的性能表现不佳。因此基于鲲鹏处理器优化LAPACK对称矩阵方程求解相关例程不仅可以提升应用程序计算性能,还可以完善国产高性能计算平台的计算生态。针对这一问题,本文基于鲲鹏处理器对LAPACK库的对称矩阵方程求解相关例程进行优化。首先分析LAPACK中的对称矩阵方程求解相关例程。经过性能分析,本文发现对于单精度的SYSV例程,应对相应精度的SYTRF和SYTRS进行优化。在优化的过程中,应重点优化其调用的GEMM、GER、GEMV例程。而对于双精度的SYSV例程,应对相应精度的SYTRF和SYTRS2进行优化,优化的重点是其调用的GEMM和TRSM例程。因此本文在鲲鹏处理器上针对LAPACK对称矩阵方程求解相关例程的优化从三个层面入手。首先,本文对例程中的参数NB进行测试,找到其在鲲鹏架构上的最优值。接着,根据前面的性能分析结果进行代码优化:(1)对SYTRF、LASYF、SYTF2和SYTRS进行语句优化,替换旧的Fortran语法以及将循环中的分支放到循环外;(2)对调用的GEMM、GER、GEMV和TRSM进行循环展开;(3)在SYTRF、SYTRS和SYTRS2中进行数据预取;(4)在SYSV中使用Open MP和MPI编程方式对调用SYTRS或SYTRS2的过程进行并行化。最后,从编译的角度,为LAPACK选取合适的编译选项,利用编译器的自动优化功能进一步地优化例程的性能。完成前述优化后,本文对优化前后的例程进行性能对比分析,并与目前基于ARM架构优化的两个数学库ARMPL和KML以及基于Intel处理器优化的Intel MKL中相同功能的例程进行性能对比。最后,本文将优化后的LAPCK对称矩阵方程求解相关例程用于高性能计算应用DFTB+的部署,验证优化后的LAPCK对称矩阵方程求解相关例程可以为DFTB+带来性能提升。本文的研究结果表明,经过优化后,LAPACK对称矩阵方程求解相关例程的性能大幅提升。与优化前的LAPACK对称矩阵方程求解相关例程的有效计算相比,单精度实数下可获得的加速比为12.857,双精度实数下可获得的加速比高达21.161,单精度复数下加速比为11.761,双精度复数下加速比为12.497。在与基于ARM架构优化的数学库ARMPL和KML的相同功能例程的性能对比中,本文优化的对称矩阵方程求解相关例程的性能表现也更好。另外与Intel平台上的Intel MKL相同功能的例程进行性能对比,本文优化的LAPACK对称矩阵方程求解相关例程可获得的最高加速比达5.842。将本文优化的LAPACK应用于DFTB+的部署,测试结果也显示计算性能明显提升,并且通过计算结果可视化和DOS对比证明优化后的LAPACK在提升DFTB+性能的同时不影响其最终的计算结果。本文基于鲲鹏处理器设计了LAPACK对称矩阵方程求解相关例程的优化方案,并进行实现和性能对比分析,为进一步优化LAPACK和优化其它线性代数库提供了一个思路,可供其他研究人员参考。
其他文献
党的十九大报告中提出了“乡村振兴”的重要战略,旨在提高乡村经济社会发展水平,也清晰界定了城乡协调发展之间的关系,对我国广大乡村发展从五个维度提出了新时代的目标与要求。同时国务院在关于实施乡村振兴战略的意见中提出,在实施乡村全面振兴的过程中要“注重协同性、关联性,整体部署,协调推进”。立足于这一背景,本文主要分析研究特色田园乡村建设中的协同治理问题,首先从乡村振兴战略、特色田园乡村的内涵入手,并结合
学位
本文主要围绕傅增湘的金石活动与其书法为中心展开,通过他与金石书画家的交游、访碑、鉴藏、传拓等活动进行考察,最后再描写其书法作品并探讨其书法风貌的变化及原因。论文主要分为四部分。首先,第一部分简单介绍了傅增湘家世及生平,分别论述傅增湘与金石学家、书画家、篆刻家的交游。其友罗振玉、沈曾植、张元济、王国维等人的金石鉴赏观都或多或少对傅增湘的思想产生了影响,相互的交游中蕴含着傅增湘的“嗜古”思想。其次,第
学位
拐卖儿童犯罪严重侵害了儿童的身心健康与人格尊严,给家庭和社会带来重大创伤。在社会经济快速发展的今天,由于暴利因素与买方市场扩张导致拐卖儿童犯罪仍屡禁不止。中国环境犯罪学研究起步较晚,且主要针对的犯罪类型较为集中,当前亟需从精细化的空间视角针对不同犯罪类型展开实证解析。因此本文从微观街区尺度聚焦拐卖儿童犯罪问题,基于网络寻亲数据、视频监控数据与实地调研资料,采用质性分析、数理统计、空间计量等方法,综
学位
在新时代背景下,随着全国各类马拉松赛事举办场次增多和规模不断扩大,马拉松裁判团队执裁素质和管理水平等方面暴露出诸多问题。本文在了解广州马拉松裁判员团队发展现状的基础上,初步构建了广州马拉松裁判员执裁胜任力模型,以期为广州马拉松裁判员的个人提升与团队专业化建设提供理论参考,同时也为今后我国马拉松裁判员选派、岗位培训、职业发展等方面提供标准与依据。本文综合运用了文献资料法、专家访谈法、数理统计法、问卷
学位
作为第二代电网系统,智能电网是一种集合了电网技术与信息技术的典型信息物理系统,但由于其规模大、结构复杂,智能电网极易受到攻击影响。智能电网的信息系统主要负责电能分配与信息交流,因此它在系统中处于关键作用,一旦攻击者成功对其实施攻击,将对智能电网造成不可逆的影响。由于传统电网的交流性质,针对交流电网的攻击检测研究已经有了较大进展,但对直流电网的攻击检测研究还相对较少。为此,对本文基于强化学习的算法,
学位
在整个西方哲学的历史上,有关指称问题的讨论一直是语言哲学的核心话题,也是讨论语言如何与世界相连接的焦点。随着现代认知哲学的发展,人们开始通过对语言的研究来澄清传统哲学提出的形而上学问题。但是有关空名问题,尤其是那些非实存对象的指称问题逐渐进入到人们的研究视野,并呈现出多学科、多视角的多元化研究局面。塞恩斯伯里通过对于指称理论的历史考察,在穆勒的直接指称理论和弗雷格的描述理论之间,找到了第三条道路。
学位
云南的傈僳族是一个有着悠久历史,在得天独厚的地理环境和独特的人文中孕育出了一些民族传统体育项目,而传统体育作为傈僳族的民族文化内容,是一种不可再生的文化,需要人们的高度重视,如果不对其采取合理的保护措施,这种少数民族传统体育文化会慢慢的被人们遗忘。从以前发展到现在,最能够体现出傈僳族传统文化的传统体育项目就是射弩,射弩作为傈僳族智慧的结晶,也是傈僳族民族文化发展的见证,蕴含着傈僳族人民丰富的精神文
学位
十八届三中全会以来,推进国家治理体系和国家治理能力建设作为一项重大战略任务日渐提上我国政府现代化建设的日程,基层政府治理作为国家治理体系的重要组成部分,直接关系到国家治理成果的最终呈现。十九届四中全会对国家治理能力和治理体系的显著优势进行了总结升华。形式主义作为一个长期存在于我国政府建设过程中的具体问题,影响了基层治理效能的发挥。十八大以来,习近平总书记曾多次强调要反对形式主义,加强四风建设。党中
学位
当今社会中,人们的日常生活方式及其物质精神等选择日新月异。文字、图片、影像等各种视觉符号,都能够对社会的发展具有极强的直接或潜在的影响。单就影像艺术而言,到了当代,影像艺术已经历了从单一的影像到拟像过程的叙述转变,其中包括了电子技术时代的视觉影像及其他数字技术阶段。影像艺术这种前进并不单纯是后者对前者所进行的全面性取代,更多的是后者作为前者的多向递进式补充。随着当代各个阶段的数字媒体和电子传播媒体
学位
随着汽车工业的逐渐发展,我国废弃的轮胎规模也越来越庞大,不仅造成了资源浪费,还产生了严重的黑色污染。如何绿色高效的回收废旧轮胎,已经成为我国在建设资源节约型社会的道路上一个亟待解决的问题。将废旧轮胎进行热裂解处理是一种环境友好型的处理方式,其不仅解决了废旧轮胎的处置问题,还可以产出固、液、气三种形态的有价值的产物,其中固体产物约占产物总量的35-45 wt.%,被称为废旧轮胎再生炭黑,简称为rCB
学位