【摘 要】
:
STREAM是微处理器上内存性能的基准测试程序,在多核多线FT1000微处理器上发挥高性能是具有挑战性的研究工作.基于多级Cache结构,优化STREAM四个程序的指令流水线,根据寄
【机 构】
:
NationalKeyLaboratoryofHighPerformanceComputation,SchoolofComputerScience,NationalUniversityofDefens
论文部分内容阅读
STREAM是微处理器上内存性能的基准测试程序,在多核多线FT1000微处理器上发挥高性能是具有挑战性的研究工作.基于多级Cache结构,优化STREAM四个程序的指令流水线,根据寄存器数,设计了多级循环展开方法,根据指令延迟和Cache行的大小确定数据预取的数目,使用汇编语言编写了优化子程序.基于OpenMP并行环境,设计了STREAM并行程序,优化了局部化数据分配方式.数据测试结果表明,优化后的STREAM的性能,对比原始串行程序性能提高了19.2-64.2%.优化后,并行程序的最高访存性能达到8.5GB/s,对比优化前的最高访存性能最大提高了22.7%.
其他文献
生物特征加密技术由于生物特征认证技术和密码学方法组成。它在为生物认证系统提供精确性和便捷性的同时,也保证了生物模板的隐私性和安全性。本文对人脸特征模板保护技术
随着数字信号处理应用的日趋广泛,对于算法实时性的要求也越来越高。这篇文章着重介绍基于TMS320C55x DSP芯片的C代码的优化。通过使用内联函数、生成双MAC操作、restrict
文中介绍了混合线性预测(MELP)过渡帧编解码改进的一种算法。在MELP语音编码中,导致语音质量下降其中一个重要原因是语音帧的突变转换。针对此问题,文章引入清浊音判决(UN
2FSK是数字通信应用较广的一种调制方式。文中详细的介绍了2FSK正交调制解调的原理,并给出了通用的正交调制解调框架。同时提出一种新的判决门限方法,该方法通过对相位差分
对二维数据进行傅立叶变换可以得到其频谱信息,因此二维FFT模块是很多图像处理系统的重要组成部分。在Xilinx一维FFT变换IP核基础上,搭建二维FFT变换的实现架构,利用该模块
本文介绍和比较当前超大规模并行计算的一些容错与恢复的方法,描述IBM高性能并行计算的Checkpoint/Restart 技术架构。同时探讨了并行计算的容错和恢复在超大规模集群架构
鉴于图形处理器的应用日趋广泛,多核SoC的研究日益迫切,本文设计了一款异构多核图形处理器HMGPU-9.HMGPU-9将9个具有不同功能和不同结构的微处理器核、大量复杂专用电路
随着超级计算机计算能力的不断提高,依赖于超级计算机的数值模拟等计算所生成的数据规模越来越大.常用的可视化系统已经无法有效处理大规模数据,直接导致相关研究人员无法
高性能地学计算已成为计算机科学和地理科学交叉领域的研究热点。然而繁琐的并行编程问题常常妨碍地学专家快速而高效地研发地学算法。本文面向栅格数据处理的并行算法研
MapReduce任务负载均衡主要是通过分区函数来实现的,Hadoop默认的分区函数并不能很好保证reducer的负载均衡。本文针对周期性的业务处理提出了一种基于权重计算的负载均