论文部分内容阅读
由于功耗和散热的限制,提升主频来增加芯片性能的道路已到尽头,多核与众核已成为处理器发展的新方向。众核协处理器因其固有的高性能、低功耗和高性价比等优势,在高性能计算领域表现优异;但也面临异构程序移植困难、众核体系结构性能优化困难、异构系统高效协同困难、数学原理/领域机理理解困难等挑战。本文重点关注面向众核体系结构的性能优化和异构系统协同优化,试图通过微benchmark测评以获知感兴趣的体系结构特性,导出相应的优化策略,并将其应用到实际应用获得性能收益。本文以众核GPU为例,重点针对众核体系结构性能优化困难和异构系统高效协同困难两方面的挑战开展研究,关注GPU的存储体系和主机端存储选择,设计微benchmark探索相关特性与规律,总结优化策略,并将其应用到高光谱影像降维和声呐信号波束形成两类实际应用中,以最大化应用执行性能。本文主要工作和创新包括以下几点:(1)针对GPU存储优化难题,提出了一种面向GPU存储系统的warp级基准测评方法,设计了GPU的访存优化方法,构建了GPU的一种访存优化框架,实验结果表明了该优化框架的有效性。面向GPU存储层次,测评了各存储单元的thread级访存延迟;提出基于GPU存储的warp级访存测评方法,设计了两个并行访存测评实验,系统地测评了共享存储、常量存储、全局存储和纹理存储的访存特性;探索寄存器替换局部存储的策略、共享存储体冲突及其避免策略、数据类型选用对全局存储访存带宽的影响;设计各存储单元的访存优化策略,构建GPU访存优化框架,并阐述其在高光谱影像降维和声呐信号波束形成两类真实应用中的使用和收益,验证了优化框架的实用性和有效性。(2)面向异构协同优化问题,提出了一种CPU/GPU异构系统的分段主机端存储选择模型,利用zerocopy技术设计了两种优化方案,并验证了所提模型和方案的有效性。在CPU/GPU异构系统中,通过微benchmark测评主机端存储的访存带宽、PCI-E带宽、页锁定存储的注册和解除注册开销,提出分段式的主机端存储选择模型,并以PCA降维为例探讨了模型的使用和效果。此外,针对zerocopy技术,提出并验证了利用zerocopy减少全局存储访问和实现计算通信重叠两项优化方案;实例讨论了计算与通信重叠、(CPU)计算与(GPU)计算重叠两类通用的异构协同优化技术。(3)将GPU存储和异构系统的测评与优化研究成果应用于高光谱影像降维领域,构建了面向众核体系结构的高光谱影像并行降维框架,提出了PCA、FastICA和MNF三类高光谱影像降维方法的GPU并行算法,实验结果表明算法具有良好的加速效果。针对3类主流的降维算法(主成分分析、快速独立成分分析和最大噪声分数变换),分析加速热点,分别基于分布存储、共享存储和GPU设计了协方差矩阵计算、PCA变换、ICA迭代、噪声估计(滤波)等热点并行方案;面向众核GPU,研究各热点的性能优化策略及优化效果;提出面向众核体系结构的高光谱影像并行降维框架,并在CPUs、GPUs和Phis三种平台给予实现。实验结果显示本文并行和优化方案能够显著提升并行降维算法的性能,其中Gs-PCA算法最高加速119.7倍,Gs-FastICA算法最高加速106.6倍,G-MNF算法最高加速86.9倍;并通过实验分析并行降维算法的可扩展性。(4)将GPU存储和异构系统的测评和优化研究成果应用于声呐信号波束形成领域,提出了DFT-CBF和MVDR两类宽带波束形成方法的GPU并行算法,实验结果显示算法获得了理想的加速效果。重点针对DFT-CBF算法中的DFT变换、CBF/Lofar计算和频带能量整合统计,以及MVDR算法中的DFT变换、双边雅克比迭代(厄尔米特矩阵特征分解)和方位谱统计等加速热点,设计GPU并行映射方案,面向GPU体系结构探索性能优化策略,量化分析优化效果,实现基于GPU的并行宽带波束形成算法。通过实验分析了并行算法加速比和实时性,其中基于GPU的DFT-CBF算法可实时处理万基元基阵波束形成,最高加速125.3倍;同时使用多个GPU同时运算的Gs-MVDR算法获得最高30.7倍加速比。