面向电力系统稳态分析应用的异构并行技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ccache
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电力系统分析是电力系统规划设计、调度控制的决策基础和科学依据,是保障电力系统安全稳定运行的基本手段之一。电力系统分析以数字模型代替实际电力系统,用数值计算方法对系统的运行特性进行实验和研究。随着电力系统规模的增大,系统元件模型日益复杂,对系统机理研究越来越精细,电力系统分析的规模和复杂度空前增长,迫切需要利用并行计算技术提升电力系统分析应用效率。
  与此同时,高性能计算硬件技术得到飞速发展,以GPU为代表的专用加速器成为最具吸引力的高性能处理部件。利用CPU-GPU异构体系结构所具备的大规模并行性来提升电力系统分析效率成为了当前的一个研究热点。电力系统分析应用在CPU-GPU异构平台上的并行实现常面临两方面的挑战,一是在节点层面(单个节点内部),必须充分利用异构体系结构特点深入挖掘算法多层次并行性,高效利用GPU的存储层次,或者容易造成应用性能低下;二是在系统层面(节点和节点之间),随着GPU集群规模的扩大,异构系统难以编程的问题日益突出,需要为开发者提供简单高效的异构并行编程模型和方法。
  针对以上挑战,选取电力系统稳态分析中最为常用的潮流分析、静态安全分析、调度计划静态安全校核等三类应用,结合CPU-GPU异构平台,对应用程序并行化中的若干异构并行技术进行深入研究。
  电力系统潮流分析问题是通过牛顿-拉夫逊法转化为稀疏线性方程组的迭代求解,其中稀疏矩阵分解是求解过程中最为耗时的部分。为消除稀疏矩阵运算带来的计算和访存不规则性,在节点层面提出一种基于CPU-GPU的大规模稀疏矩阵分解多波前并行方法,将稀疏矩阵的分解转化为大量稠密矩阵运算任务在CPU-GPU上的高效并行执行。针对节点内多任务稠密矩阵乘法运算,在CPU-GPU间设计基于阈值判断的最优化任务划分模型,利用多线程模型和无锁环形任务队列实现了任务协同执行和数据交换机制,提升了CPU-GPU多任务整体执行性能;在GPU内提出设备内核函数空间划分的任务抢占式多执行单元(Task Execution Unit, TEU)并行处理方法,该方法实现了一种全新的任务线程组织方式,支持多个矩阵乘法运算在一个内核函数中并行执行,同时在执行中进一步对矩阵乘法运算进行多层次存储访问优化,显著提升了GPU计算吞吐率。实验结果表明,在2万条母线规模电网算例上,基于以上技术实现的CPU-GPU潮流分析并行程序,相较于CPU多线程程序达到了3.95倍的加速比。
  电力系统灵敏度分析法是静态安全分析中最为常用的一种方法。针对GPU灵敏度法低维矩阵运算带来的线程空转所造成的计算效率不高的问题,在节点层面从提高线程并行度和计算强度的角度设计GPU低维矩阵运算算法线程映射策略,利用横向和纵向合并技术提出低维矩阵乘法、低维矩阵求逆、低维矩阵向量乘法各自在GPU上的高效合并并行执行方法,在执行过程中为提升GPU访存效率实现了片上内存数据重用、全局存储器访问合并、存储体冲突消除、寄存器分块等访存优化。实验结果表明,在6000条母线规模电网算例上,基于以上技术实现的GPU灵敏度法静态安全分析并行程序,相较于CPU多线程程序达到了1.8~1.9倍的加速比。
  电力系统调度计划静态安全校核多采用MPI(Message Passing Interface)、OpenMP(Open Multi-Processing)、CUDA(Compute Unified Device Architecture)等编程模型混合的方式实现多算例任务在GPU集群上的并行执行。为了克服混合编程模型可编程性和性能方面的不足,在系统层面基于全局数组(Global Arrays, GA)设计与实现一种异构并行内存编程模型CUDA-GA,包括GA异构接口扩展、基于可靠UDP通信机制的底层通信库优化、异构并行执行框架等实现,并利用CUDA-GA以任务预分配法实现了调度计划静态安全校核在GPU集群上的并行算法。实验结果表明,CUDA-GA可以有效提升异构程序的可编程性和运行性能,基于CUDA-GA实现的调度计划静态安全校核并行程序,相较于MPI+CUDA方法整体计算用时缩短了20%~30%。
  综上所述,围绕电力系统稳态分析应用的计算效率和可编程性,提出了基于CPU-GPU的稀疏矩阵分解多波前并行方法、GPU低维矩阵运算并行方法、以及异构并行内存编程模型等,实现了电力系统稳态分析高效异构并行算法。研究成果在国家电网实际生产运行中落地应用,为保障电网安全稳定运行发挥了重要作用。
其他文献
随着现代应用程序复杂度的不断提高,大规模的数据计算对程序和编程框架的并行性和可扩展性的要求越来越高。数据流编程语言COStream使用特定的文法描述计算任务,编译后将各任务均匀划分至不同的核上,能充分发挥多核平台的性能。但目前COStream语言的文法在编译阶段存在移入归约冲突,导致对运算符优先级的解析存在错误,且缺少内置的矩阵运算接口,影响了COStream数据流编程模型的可用性和易用性。  针
近些年来,物联网技术的飞速发展已经使得人、机、物三者的融合共生成为了一种不可逆转的趋势。人机物融合应用的发展现如今还面临着诸多挑战,如何在边缘场景下进行高效的资源调度是其中的关键问题之一。边缘场景下的人机交互应用会产生大量的数据,如果选择不在网络边缘侧处理这些数据,数据的传输过程将会给网络带宽带来极大的负担,同时数据传输所带来的高网络延迟也会让一些延迟敏感应用的使用体验感大大降低。但在网络边缘处理
学位
移动边缘计算作为边缘计算的一种实现形式,其在一定的程度上有效的弥补了云计算在实时性处理、带宽占用以及数据隐私安全方面的不足,并且在人机物融合应用方面具有十分良好的前景。但是,由于边缘计算所依赖的边缘设备本身所固有的携带能量有限、计算能力有限、存储能力有限的局限性,边缘计算在应用的过程中往往面临着各种各样的挑战。  针对移动边缘计算场景下,边缘设备接入接出灵活的特点,以及由边缘设备接入接出所引发的边
近年来,知识图谱由于其表达丰富信息的能力及其在基于知识的推理中的潜力而受到了广泛的关注。例如,它们可以协助(与移动服务中的用户关联,切换策略和流量内容)相关的深入知识发现。知识图谱嵌入可以将知识图谱中的实体和关系投影到密集且低维的向量中,并通过这种方式有效地测量复杂的语义信息以及这些实体之间的关系。但是,传统的知识图谱嵌入方法仅考虑知识图谱中的直接事实,在面对稀疏数据时,很难实现对实体和关系的合理
学位
在如今的大数据时代,智慧城市的理念与建设蒸蒸日上,作为和谐社会的安全保障,监控摄像头可谓随处可见。监控视频下的行人属性识别通过统计整合信息实现对行人的信息结构化,这对于智能安防、刑事侦查、广告精准投放等领域具有至关重要的作用和意义。但是由于监控视频场景复杂,而且行人属性类别间的相关性和属性类别与空间位置间的关联较难挖掘,行人属性识别任务仍具有挑战性。  本文提出的基于语义分割的行人属性识别方法,针
随着互联网技术的迅速发展,大数据时代下信息过载的问题日益严重。能够提供个性化信息服务的推荐系统成为解决上述问题的主要技术,而其中的矩阵分解模型因其简单高效且准确度高得到了广泛的关注。传统的仅使用用户对商品评分信息的矩阵分解模型及其他协同过滤方法容易受到评分稀疏的影响而效果不佳。现实生活中,广泛存在于网络且容易获取的用户评论能一定程度反映用户的喜好和被评论商品的特征,因此结合评论文本的个性化推荐算法
随着直播行业的迅猛发展,观看直播成为了大量用户的主要文娱活动之一。但是各大直播平台的相互独立性一方面影响了用户体验,一方面难以满足相关部门的监管需求,将各大直播平台动态聚合成为必要。直播平台自身发展的过程中,平台内部也遇到了信息过载的问题,而直播背景下的推荐不同于电影视频等推荐,具有时效性、隐蔽性和不确定性的特征,更为重要的是直播平台在迅速扩张过程中引入的新用户与主播会加剧推荐系统中的冷启动问题,
学位
现实生活中的推荐系统经常面临这样的问题,仅基于短时会话(session)的数据(例如小型新闻网站),而不是长期的用户记录(例如淘宝、京东等)进行推荐。在这种情况下,常用的矩阵分解方法是不准确的。近来,循环神经网络(Recurrent Neural Network, RNN)被广泛应用在基于序列数据的推荐中,但是RNN在基于序列数据的推荐中也有其不足,因为其仅仅考虑了序列中的时序信息,而没有考虑其他
学位
随着信息技术的快速发展,现代社会数字信息量急剧增长。根据国际数据公司(IDC)于2018年11月发布的《数据时代2025(Data Age 2025)》报告,全球所有数据的总和将由2018年的33ZB增长到2025年的175ZB。海量数据的存储需求推动了大容量存储设备市场规模高速扩张,也对各类存储技术的发展提出了更高要求。与光存储、半导体存储等相比,磁存储的单位存储成本更低,综合性能优势更大,基于
学位
随着大数据时代的到来,数据中心成为数据存储的主要场所,其数据量呈指数级增长,对存储器的需求也大大增加。磁盘存储器具有高密度、大容量、高性价比等优点,是目前数据中心的主要存储设备。然而,磁盘存储器寿命短、故障率高等问题大大降低了数据中心存储系统的可靠性。磁盘故障不仅影响数据中心服务的可用性,还会给数据中心运维带来巨大的开销。因此,研究磁盘故障问题对提升数据中心存储系统的可靠性和减少数据中心运维成本具
学位