基于PTS的龙芯处理器性能分析与优化

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yujing4953
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
处理器性能分析对于性能瓶颈定位、优化处理器体系结构、指导下一代处理器设计具有重要的意义。随着处理器体系结构的日益复杂,如何在有限的时间内快速有效地定位分析处理器的瓶颈,是当代微处理器设计者都面临的问题。本文使用PTS(Phoronix Test Suite)测试框架,系统地研究了龙芯3号处理器和AMD PhenomⅡ处理器的性能差距,并根据分析结果提出了一系列指导龙芯处理器结构优化的方案。同时,针对硅前仿真模拟速度慢的问题,本文设计并实现了一套完整的硅前性能测试集,用以在后续的芯片研制过程中及时有效地发现性能瓶颈。本文的研究内容和主要贡献有:  1.将PTS测试框架移植到龙芯平台上,对比分析龙芯3A3000处理器和AMD PhenomⅡX4905e处理器在同主频情况下的性能,找出了龙芯平台的性能瓶颈。基于该测试框架,本文从整体测试结果、指令级对比、访存行为、分值预测、流水线效率、向量化等多个方面对比了测试程序集在两个实验平台的运行情况,通过研究程序核心热点代码,剖析了导致龙芯平台压缩、高精度计算、加密解密、视频音频编解码等多类程序性能不足的根本原因。由于循环缓冲器的存在,测试程序短循环分支失效率较高;压缩类程序存在明显的非对齐访存引发的性能瓶颈,使用MIPS中的特殊访存指令可以进行有效地优化。  2.针对龙芯处理器平台的性能瓶颈,设计实现了一套轻量级硅前性能测试集。该测试集具有轻量、可移植性强的特点,很好的适应了处理器研发过程中的各类环境。本文将该测试集应用于3A4000RTL仿真加速平台,极大地缩短了硅前性能分析所需时间,同时验证了在3A4000的设计中,定点部件以及数据预取策略优化效果明显,新的分支预测算法对于测试程序也有比较大的改善。
其他文献
基于QOS信息的服务型构件选择系统的设计与实现软件资产库是对可复用资产进行管理的基础设施,提供了资产描述、分类、发布、存储、检索、反馈等资产管理功能。随着分布式技术
近几年来,随着LBS、GPS及导航应用的迅猛发展,人们对电子地图的需求越来越旺盛。本文结合通图(www.tongmap.cn)工程建设及VegaGIS平台软件的地图注记自动配置模块的工具构建,以
基于实例数据合成逼真人体运动是近年来计算机动画研究的热点。由于运动捕获是针对特定场景采集特定运动,为了满足实际中不同的应用需求,利用已经捕获到的实例数据合成新的人体
该文首先分析了课表问题中的各种因素,以及人工排课的模拟过程,确定了课表问题是一个具有不确定性、NP完全的组合优化问题.为了能够有效地解决课表问题,我们采用了基于遗传算
随着数据库管理系统负载的多样化和复杂化,手工管理其性能变得越来越困难。而网络应用所产生的负载增长迅速和难以预测,需要为每个网络应用制订灵活的、有保证的性能要求。如何
现场总线(Fieldbus)是八十年代末九十年代初国际上发展起来的用于过程自动化、制造自动化、楼宇自动化等领域的现场智能设备互连通讯网络。它作为工厂数字通讯网络的基础,沟
协议识别是进行有效的网络管理与控制的重要条件,由于新的P2P软件(以Skype,Emule,BitComet,迅雷为代表)开始使用加密协议和协议伪装等技术手段来防止被网管探测、识别、封堵,传统
世界视频设备市场已经进入从模拟设备向数字设备的转型期,这个为期十年的历史性转折将引发巨大的市场需求。与模拟技术相比,视频的数字化技术可以提高图像的清晰度和质量,并具有
ASON网络赋予了传统的光传送网前所未有的灵活性和扩展性,其代表的智能化已经成为下一代光网络的发展方向,近几年,WSON网络作为ASON网络对波长网络控制的延伸,在继承了其极高
网络规模和应用规模的不断扩大,使得IT资源数量剧增,分布也更加分散。面对越来越复杂的网络业务环境,如何对各种设备资源和各类分布式业务应用实施管理,成为目前IT系统管理面临的