基于栈的GPGPU调度器设计研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:lsq87810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
GPGPU的主要目标是利用GPU强大的并行计算能力进行通用目的的计算。为了支持通用计算,GPU的结构也开始针对通用计算优化,但GPU固有的SIMD工作方式依然是限制其性能发挥的巨大障碍。其主要的问题是SIMD及其类似结构所面临的控制分离和存储分离问题。而目前在控制分离上的研究往往没有考虑其对存储系统造成的影响,从而可能导致其性能不稳定,甚至出现性能下降。   本文总结了GPGPU线程调度的研究现状,指出了其中存在的问题。其中,PDOM机制不能调度其所有分支路径;DWS的分支机制虽然能调度所有的分支路径却存在则由于缺少子恢复点信息而面临warp过度细分的问题。针对PDOM机制和DWS机制的优缺点,本文提出了一种子恢复点感知的混合栈式机制,该栈式机制通过增加叶子节点表和附加的数据通道。该混合栈式机制能对任意路径的节点进行正常的PDOM机制的恢复操作,且具备DWS机制的所有分支路径的调度能力,在这基础上还能防止DWS过度细分,具备了更强的调度灵活性。   为了充分发挥本文混合栈式机制的延迟覆盖潜力,本文通过分析发现,如果能让一部分warp先于其他warp先行执行,就能让后续的warp利用其计算周期覆盖前面先跑warp的计算周期,强化GPGPU的延迟覆盖能力。由此出发本文提出了一种基于窗口的调度机制,该机制通过引入调度窗口和等待队列,让调度窗口中的warp先于等待队列中的warp先运行,并在调度窗口内的warp遇到长周期存储访问时切换warp,并通过先行发射混合栈式机制中存在存储指令的分支来进一步强化存储延迟覆盖能力。本文对调度器窗口的大小、子warp调度优先级以及存储节流等调度策略和实现细节进行了讨论。   本文通过GPGPU-SIM模拟器对该栈式机制及基于窗口的调度算法进行了验证。通过对12种组合进行性能对比测试和敏感性测试,其结果表明,最佳的性能是在本文提出的两种机制的组合下取得的,其相对于基准测试平台平均性能提高10.5%,相对于DWS平均性能提高6.8%,相对于PDOM和基于窗口调度机制的最佳性能提高2%,而DWF方式由于破坏了访存合并模式出现了较大的性能下降。WARP饱和度数据测试与分析表明,本文的两种机制的组合确实能防止过度细分。在代价方面,本文相对于DWS机制的硬件面积代价的增加不超过1.33%。
其他文献
车辆自组织网络(VehicularAd-hocNetworks,VANETs)是一种由可信中心(TrustedAuthority,TA)、服务商(Provider)、车辆(Vehicle)和路边单元(RoadsideUnits,RSUs)共同构成的大规模
综合调度是关注工序间存在约束关系的产品制造过程中,考虑加工和装配之间的并行关系的调度,虽然综合调度问题的研究取得了一些成果,但是有关综合调度中的批处理问题的研究,即批综
在现代信息技术高度发展的现在,it类的应用在各国范围都在不断增加,广域网络的、分布式业务信息管理体系已经深入到各个行业的不同领域中,使得它的应用越来越广。同时数据交
互联网名称与数字地址分配机构ICANN/IANA于2011年2月宣布IPv4地址已全部耗尽,IPv6时代正式到来。IPv6协议采用了128位地址,从根本上解决了地址资源不足的问题,同时IPv6协议在安
随着计算机科学技术的日益更新及发展,互联网技术及多媒体技术正广泛影响着人们的生活,通过互联网进行数字媒体的编辑、复制和传播已经成为人们生活和工作不可或缺的一部分,这给
自动发电控制(AGC:AutomaticGenerationControl)系统是电力调度能量管理系统中的一项重要环节,由电厂控制系统、信息传输系统、主站控制系统等三部分组成。随着电力系统自动化
移动存储介质因体积小、使用便捷等优点而得到普及,随之产生的信息威胁也日趋严重。这是计算机安全领域的又一课题,由于移动存储介质的本地接入难以管理,通用终端设备的安全
伴随着科学技术和社会经济的快速发展,民航运输业也得到了迅猛发展,从而促进了民航空中交通流量快速增长,航班流量密集,架次增加,导致空中交通拥挤状况日益严重,造成大量航班延误、
随着处理器体系的发展,在通用多核处理器的结构上扩展加速核形成异构多核处理器平台,已经成为了高性能计算的趋势之一。在通用多核处理器上集成加速核,给处理核之间的互连方式的
短波语音通信环境下飞机类型识别是非合作通信相关方向一个新课题,无论是在民用领域还是在军用领域都有着广阔的应用前景,对国家安全非常有意义。利用短波语音通信环境下飞机驾