WCNS-E-5半节点重构在Intel Xeon Phi上的性能优化

来源 :2013全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:CZXchen10
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WCNS格式是中国自主发展的计算流体力学高阶精度格式,已在科学研究和工程中获得较多应用.该格式中的半节点重构计算是高精度CFD计算的性能热点.以5阶显式WCNS格式(WCNS-E-5)为例,在250万网格规模算例的非定常流场显式求解计算中,半节点重构计算约占了总时间的1/3.本文主要以WCNS-E-5格式为对象,结合WCNS-E-5半节点重构模板特点与集成众核平台的宽向量、高线程并发度等体系结构特征,开展以向量化为核心的性能优化研究.优化后的半节点重构计算在Xeon Phi上获得了8倍的性能提升,单加速器的性能相当于双路CPU的2.5倍.
其他文献
对多用户环境下的云数据中心资源分配问题,提出了一种基于多背包问题的分层递进资源分配算法LP—MKP,旨在以最小化各用户虚拟机间的网络直径之和为最优化目标该算法首先将云数据中心由底至上分为多个层次,每一个层次对应资源分配一个阶段;在每个实施阶段,把该层节点的剩余资源和所有未分配用户转化成一个基于多背包问题的分配模型,并采用近似算法求解分配方案,通过层层递进的分配过程完成对所有用户的资源分配任务。实验
基于String Graph理论的序列拼接工具SGA是当前国际上的一种新型序列拼接工具,本文首先形式化证明了SGA的序列拼接问题是一个NP完全问题,然后对SGA的拼接效率进行了分析,发现和业界同类拼接软件相比,SGA在内存开销方面具有优势,但却具有更大的时间开销,其中构建索引占据了60~70%的比例.基于此,本文设计了一种并行优化策略,并实现了面向天河二号体系结构的并行策略解决这一问题.分别在普通
结构多块网格CFD并行求解通常以网格区块为单位分配进程负载,网格块数限制了进程并行规模为了提高并行度,通常需要网格区块重剖分。在CFD隐式求解中,Jacobiml矩阵通常难以获得且存储需求大,JFNK方法则无需显式计算与存储Jacobian矩阵。本文利用PETSc的分布式数组(DMDA)数据结构和JFNK解法器,在无需显式网格区块重剖分的前提下,实现三维定常或非定常可压流体的Navier—Stok
网络安全可视化是近年来网络安全研究的热点,它通过提供有效的信息可视化工具,提升网络安全分析师在解决网络安全问题过程中的感知和认知能力,从而发现模式、识别异常和掌握趋势.为了应对大规模、多数据源的网络安全协同可视分析需求,本文研究了基于统一格式的事件元组和统计元组的数据融合模型,并提出了擅长事件关联分析的雷达图和擅长统计时序对比分析的对比堆叠流图的设计方法,然后使用该原型系统对VAST Chulle
为了充分发挥高性能计算机的计算能力,缓解程序员设计和编写并行程序的压力,扩充可用软件集合,设计并实现了利用交互界面中深入挖掘程序中的可向量化语句,优化生成代码中的向量化语句,提高生成代码的执行效率.该方法对充分发挥高性能计算机的计算能力,增强系统可用性和扩展应用范围具有重要的意义,同时能够提供有效的辅助手段和工具支持.渐进式智能回溯向量化代码调优架构通过对用户提交的串行程序进行程序分析和变换,采用
近年来,对等网络(P2P)成为互联网的焦点,BitTorrent作为应用非常广泛的P2P文件分发系统而备受关注.BitTorrent在文件分发过程中将文件分片,然后依靠多个下载节点互相交换这些分片,最终达到使下载节点均获得全部分片的目的.在选择与哪些节点分发分片的过程中,存在Tracker服务器端节点选择算法和下载节点端节点选择算法两个核心算法.在原有算法中,BitTorrent通过随机选择节点构
OFDM系统作为无线通信系统中的一类,广泛地应用在当前以及下一代无线通信中.根据OFDM系统的特点,提出一种用于OFDM系统的异构多核DSP体系结构——HeteroM-DSP.HeteroM-DSP由基于VLIW指令集体系结构的DSP核构成,具有良好的指令集并行性和数据级并行性.每个独立的DSP核通过共享存储器、任务调度总线和总线控制器构成的开环互联结构进行相互连接,提高了多核DSP核间通信的并行
并发程序中的数据竞争问题很难被检测和修复.以往的研究大多针对用户层的数据竞争检测并在此问题上取得了重大的进展,但在操作系统内核层面的数据竞争问题却几乎没有涉及.内核代码使用的同步机制远比用户层应用程序中复杂,如不同种类的锁,软硬件中断,大量的信号量原语以及各种底层的共享资源等.这些差别使得原有的用户层检测方法很难被应用到内核环境中.本文给出一个可有效检测Linux操作系统内核数据竞争问题的工具,基
随着CFD数值模拟规模的越来越大,各个进程上的任务负载平衡程度已经成为影响CFD并行程序性能的重要因素之一.任务负载平衡的目的是使得各进程上计算量负载平衡和各进程间的通信开销最小,传统的负载平衡方法已不能满足CFD并行计算的需求,本文提出了基于遗传算法的CFD并行任务分配策略.此策略先通过组合把网格块分为与进程数相同的组,然后把这些组分配到相应的进程上,不同的组合和分配方案会有不同的负载平衡效果,
多层Web应用性能分析是实现资源动态分配和管理,保证多层Web应用性能的重要因素之一.传统的多层Web应用性能分析模型往往假设服务器部署在无性能互扰的服务器环境中且忽略了逻辑资源服务能力对多层Web应用性能的影响.随着云计算的发展,底层物理资源可以通过虚拟化方式形成虚拟资源并向外提供服务,为多层Web应用的性能保证提供了有效支撑.因此,如何考虑虚拟机性能互扰以及逻辑资源服务能力对多层Web应用性能