GPGPU上基于运行时特征的动态并行度调度算法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:Glorygwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
调度算法对于保障GPGPU内大规模并发线程的高效运行至关重要.调度器需要根据程序的计算特征和GPGPU内各种逻辑单元的设置情况选择合理的线程并行度.然而现有调度算法或采用静态固化并行度、或调整粒度过粗,均无法在动态调整的同时保持合理的并行度参数.基于两层次调度算法TL,通过对GPGPU运行时特征的动态监测,针对细粒度Warp调度提出了结合运行时资源使用特征和指令特征的动态并行度调度算法DTL和D2TL.在性能模拟器GPGPU-Sim上的仿真实验证明,相对传统TL调度算法,DTL和D2TL分别达到平均14.4%和19.6%的性能加速.
其他文献
为了便于开发带有BDI推理机制的多Agent应用系统,首先在已有的MAGE(Multi-Agent Environment)平台上,通过引入BDI推理模块构建了一种具有BDI推理机制的多智能体运行平台MAGER
以同时具有丢失型和遗漏型未知属性值的广义不完备序值信息系统为研究对象,提出确定特征优势关系的概念,并基于此关系讨论了该系统的知识约简问题.对比分析证明,确定特征优势
针对以往相同两车间综合调度算法没有考虑工序迁移时间以及不能推广解决更普遍的非对称两车间的综合调度问题,提出考虑迁移工序结束时间的非对称二车间综合调度算法.该算法按
蝙蝠算法是一种模拟蝙蝠回声定位行为的新型群智能优化算法,对多维函数,个体在全局最佳蝙蝠的引导下修改所有的维,这种候选解生成方式可能导致种群多样性下降过快和算法局部
作为一种单隐层前馈神经网络,极限学习机(Extreme Learning Machine:ELM)相比传统神经网络算法具有模型简单、泛化能力好、学习速度快等优点,在大规模基因芯片技术的应用中为
2015年6月30日上午,在北京市劳动保护科学研究所召开了职业安全健康北京市重点实验室2015年学术委员会会议,暨“十·三五”可吸入粉尘职业危害防治顶层设计第二次专家研讨会。
目的:观察仙人掌加冰片外敷治疗感染创面的疗效.方法:将100 例患者随机分为两组,观察组50 例创面外敷仙人掌加冰片,对照组50 例创面外敷呋喃西林纱布.观察两组治疗感染创面的
直接使用傅里叶梅林变换计算出的图像间旋转参数的精度不高,以此旋转参数对图像进行纠正后再使用相位相关的扩展方法计算出的图像间的平移参数精度也不高.针对这种情况,提出
视差图的不连续过渡是决定3D体验的关键指标.现有以边界保持滤波为基础的增强方法没有考虑到滤波器核中来自不同对象像素点的影响,导致增强的视差图在边缘处出现不同程度的失
云计算数据中心由通过高速网络连接的大量服务器构成,一种有效的节能措施是维持与系统负载成比例的活跃服务器数量同时切换剩余服务器到空闲模式,由此分别产生了操作能耗和切换能耗.研究在不同服务时隙内负载已知情况下,如何配置活跃服务器数量以最小化数据中心能耗的问题.首先,建立了问题的NP数学模型;然后分析了无切换能耗情况下最优解的特性;最终通过消除整数动态规划的递推过程,得到具有多项式复杂度的最优算法.数值