论文部分内容阅读
处理器性能分析对于性能瓶颈定位、优化处理器体系结构、指导下一代处理器设计具有重要的意义。随着处理器体系结构的日益复杂,如何在有限的时间内快速有效地定位分析处理器的瓶颈,是当代微处理器设计者都面临的问题。本文使用PTS(Phoronix Test Suite)测试框架,系统地研究了龙芯3号处理器和AMD PhenomⅡ处理器的性能差距,并根据分析结果提出了一系列指导龙芯处理器结构优化的方案。同时,针对硅前仿真模拟速度慢的问题,本文设计并实现了一套完整的硅前性能测试集,用以在后续的芯片研制过程中及时有效地发现性能瓶颈。本文的研究内容和主要贡献有: 1.将PTS测试框架移植到龙芯平台上,对比分析龙芯3A3000处理器和AMD PhenomⅡX4905e处理器在同主频情况下的性能,找出了龙芯平台的性能瓶颈。基于该测试框架,本文从整体测试结果、指令级对比、访存行为、分值预测、流水线效率、向量化等多个方面对比了测试程序集在两个实验平台的运行情况,通过研究程序核心热点代码,剖析了导致龙芯平台压缩、高精度计算、加密解密、视频音频编解码等多类程序性能不足的根本原因。由于循环缓冲器的存在,测试程序短循环分支失效率较高;压缩类程序存在明显的非对齐访存引发的性能瓶颈,使用MIPS中的特殊访存指令可以进行有效地优化。 2.针对龙芯处理器平台的性能瓶颈,设计实现了一套轻量级硅前性能测试集。该测试集具有轻量、可移植性强的特点,很好的适应了处理器研发过程中的各类环境。本文将该测试集应用于3A4000RTL仿真加速平台,极大地缩短了硅前性能分析所需时间,同时验证了在3A4000的设计中,定点部件以及数据预取策略优化效果明显,新的分支预测算法对于测试程序也有比较大的改善。