【摘 要】
:
模板计算是众多科学计算应用的基础.已有的模板计算性能优化研究多是针对理想应用场景及传统多核平台,难以直接用于指导真实应用问题在Intel Xeon Phi上的性能优化.本文以理想场景和实际CFD应用场景下基于7点模板计算的雅克比迭代为例,结合Intel集成众核(Many Integrated Cores,MIC)架构特点,研究了其众核性能优化方法.研究发现模板计算在不同应用场景的众核加速效果存在明
【机 构】
:
国防科学技术大学计算机学院,长沙中国410073
论文部分内容阅读
模板计算是众多科学计算应用的基础.已有的模板计算性能优化研究多是针对理想应用场景及传统多核平台,难以直接用于指导真实应用问题在Intel Xeon Phi上的性能优化.本文以理想场景和实际CFD应用场景下基于7点模板计算的雅克比迭代为例,结合Intel集成众核(Many Integrated Cores,MIC)架构特点,研究了其众核性能优化方法.研究发现模板计算在不同应用场景的众核加速效果存在明显差异.借助性能分析工具—LIKWID,通过收集和分析程序执行中的多种硬件性能指标,尝试对模板计算在不同场景的这种加速性能差异进行了比较研究与合理性解释.
其他文献
网络安全可视化是近年来网络安全研究的热点,它通过提供有效的信息可视化工具,提升网络安全分析师在解决网络安全问题过程中的感知和认知能力,从而发现模式、识别异常和掌握趋势.为了应对大规模、多数据源的网络安全协同可视分析需求,本文研究了基于统一格式的事件元组和统计元组的数据融合模型,并提出了擅长事件关联分析的雷达图和擅长统计时序对比分析的对比堆叠流图的设计方法,然后使用该原型系统对VAST Chulle
为了充分发挥高性能计算机的计算能力,缓解程序员设计和编写并行程序的压力,扩充可用软件集合,设计并实现了利用交互界面中深入挖掘程序中的可向量化语句,优化生成代码中的向量化语句,提高生成代码的执行效率.该方法对充分发挥高性能计算机的计算能力,增强系统可用性和扩展应用范围具有重要的意义,同时能够提供有效的辅助手段和工具支持.渐进式智能回溯向量化代码调优架构通过对用户提交的串行程序进行程序分析和变换,采用
近年来,对等网络(P2P)成为互联网的焦点,BitTorrent作为应用非常广泛的P2P文件分发系统而备受关注.BitTorrent在文件分发过程中将文件分片,然后依靠多个下载节点互相交换这些分片,最终达到使下载节点均获得全部分片的目的.在选择与哪些节点分发分片的过程中,存在Tracker服务器端节点选择算法和下载节点端节点选择算法两个核心算法.在原有算法中,BitTorrent通过随机选择节点构
OFDM系统作为无线通信系统中的一类,广泛地应用在当前以及下一代无线通信中.根据OFDM系统的特点,提出一种用于OFDM系统的异构多核DSP体系结构——HeteroM-DSP.HeteroM-DSP由基于VLIW指令集体系结构的DSP核构成,具有良好的指令集并行性和数据级并行性.每个独立的DSP核通过共享存储器、任务调度总线和总线控制器构成的开环互联结构进行相互连接,提高了多核DSP核间通信的并行
并发程序中的数据竞争问题很难被检测和修复.以往的研究大多针对用户层的数据竞争检测并在此问题上取得了重大的进展,但在操作系统内核层面的数据竞争问题却几乎没有涉及.内核代码使用的同步机制远比用户层应用程序中复杂,如不同种类的锁,软硬件中断,大量的信号量原语以及各种底层的共享资源等.这些差别使得原有的用户层检测方法很难被应用到内核环境中.本文给出一个可有效检测Linux操作系统内核数据竞争问题的工具,基
随着CFD数值模拟规模的越来越大,各个进程上的任务负载平衡程度已经成为影响CFD并行程序性能的重要因素之一.任务负载平衡的目的是使得各进程上计算量负载平衡和各进程间的通信开销最小,传统的负载平衡方法已不能满足CFD并行计算的需求,本文提出了基于遗传算法的CFD并行任务分配策略.此策略先通过组合把网格块分为与进程数相同的组,然后把这些组分配到相应的进程上,不同的组合和分配方案会有不同的负载平衡效果,
多层Web应用性能分析是实现资源动态分配和管理,保证多层Web应用性能的重要因素之一.传统的多层Web应用性能分析模型往往假设服务器部署在无性能互扰的服务器环境中且忽略了逻辑资源服务能力对多层Web应用性能的影响.随着云计算的发展,底层物理资源可以通过虚拟化方式形成虚拟资源并向外提供服务,为多层Web应用的性能保证提供了有效支撑.因此,如何考虑虚拟机性能互扰以及逻辑资源服务能力对多层Web应用性能
WCNS格式是中国自主发展的计算流体力学高阶精度格式,已在科学研究和工程中获得较多应用.该格式中的半节点重构计算是高精度CFD计算的性能热点.以5阶显式WCNS格式(WCNS-E-5)为例,在250万网格规模算例的非定常流场显式求解计算中,半节点重构计算约占了总时间的1/3.本文主要以WCNS-E-5格式为对象,结合WCNS-E-5半节点重构模板特点与集成众核平台的宽向量、高线程并发度等体系结构特
时序数据的可视化是理解宇宙结构形成与演化的重要手段.本文在对近百TB级的天文时序数据进行可视化时,针对数据的高动态范围色调映射问题,提出一种基于统计直方图的算法,实现了时序上色调连贯的可视化;同时,在插值重建演化过程时,提出一种根据前后关键幀预判插值幀可见性的剪裁算法,并对裁剪结果进行实时插值和投影,通过裁剪算法大幅降低计算量、存储和I/O,并通过希尔伯特哈希元胞算法进一步加速该过程.可视化结果表
模型验证作为一种形式化技术,已逐渐应用于软件系统可靠性验证.但对结构复杂的大规模软件的验证,由于状态空间爆炸往往会导致验证过程效率低甚至失败.本文针对ANSI-C软件程序的性质(正确性)验证问题,提出一种基于程序骨架的模型验证加速方法.该方法首先根据性质对源程序进行剪枝,并按照最大强连通分支压缩循环路径以抽取程序骨架,采用Hoare逻辑获取循环压缩节点的不变式,显著减小路径编码长度,将待验证性质转