【摘 要】
:
GPU已经成为具有高并发高内存带宽的通用协处理器,但是GPU与CPU在体系结构和编程模型上存在很大差异,导致CPU-GPU异构计算系统的编程复杂度提高,即使采用统一计算设备架构(CU
【机 构】
:
南开大学计算机与控制工程学院,中国科学院计算技术研究所计算机体系结构国家重点实验室
【基金项目】
:
国家自然科学基金(61872200);天津市自然科学基金(16JCYBJC15200,17JCQNJC00300);计算机体系结构国家重点实验室开放课题(CARCH201504);天津市大数据与云计算科技重大专项(15ZXDSGX00020);高等学校博士学科点专项科研基金(20130031120029)资助
论文部分内容阅读
GPU已经成为具有高并发高内存带宽的通用协处理器,但是GPU与CPU在体系结构和编程模型上存在很大差异,导致CPU-GPU异构计算系统的编程复杂度提高,即使采用统一计算设备架构(CUDA)提供的kernel并发技术和多流技术也较难充分控制和利用GPU上的计算资源,难以有效地处理不规则的并行应用问题.为从体系结构角度探索GPU硬件支持的页锁定内存和统一虚拟地址空间等特征,该文提出了CPU辅助任务调度管理下的基于线程池技术的GPU任务并行计算模型CAGTP,实现了CPU-GPU异构计算系统上的共享内存式程序设计.提出并设计了CPU端的任务队列、计算线程块级任务调度器、任务槽和GPU端的任务复用kernel函数等机制,实现了CPU与GPU间的高效细粒度任务交互,避免了原生CUDA程序中多次启停kernel函数的开销,有效地支持了GPU上的细粒度不规则并行任务计算,而且利用模型API接口函数能够降低CPU-GPU异构计算系统的编程难度.实验结果表明,CAGTP模型中任务调度的开销是kernel函数调用的5%,有效提升了通用矩阵乘、乔列斯基分解和K均值、T近邻等典型线性代数和机器学习算法的计算性能;CAGTP模型易于扩展使用多块GPU,且在性能差异较大的多个GPU之间达到负载均衡,能够高效求解混合任务和具有不规则并行性的应用问题.
其他文献
反转新闻又被称为逆转新闻,主要是指随着新闻报道的持续深入,其所挖掘出的事实信息与之前所报道的新闻事件截然相反。本文阐释了反转新闻的传播特征,围绕其概念进行了辨析,并
在金融市场发展起来后,笼统依据MV=PY计算的货币的收入速度将越来越失去经济意义,需要重新重视由MV=PT分商品市场和金融市场计算得到的货币的交易速度。本文用两种方法、两套
小学语文教学的重要组成部分之一就是习作教学,而习作能力的形成则需要经过长时间的反复练习,尤其是兴趣必须激发。我们现在和许多家长交流起孩子学习语文的感受,多数话题都会出
近日,笔者走访新疆昌吉陶瓷卫浴市场时发现,随着当地经济的发展,人们的消费能力日渐提高,对卫浴洁具产品的追求趋向高品质、多元化,吸引了一大批知名卫浴洁具商家落户昌吉。
近年来,全球化的趋势逐渐加强,由于国际货币格局的变化,国际金融市场动荡逐渐加剧,各国银行在日益竞争的市场环境下为了谋求生存纷纷采取合并和兼并的方式提高自身的实力和增
本文探索性地对我国碳排放强度演变进行阶段性划分,并对每一阶段碳排放强度的变化特征进行分析。BP结构突变点检验表明,1985-2011年我国碳排放强度存在1991、1996和2006年3个
权力运行的普遍性原理是存在的。考察西方宪制的历史可以发现,国家机构间的相互关系一直强调相互制约,而协调的关系也渐渐得到了重视。我国的国家机构之间的关系则是过分地强
本文通过对清末北京报界闻人彭翼仲人生轨迹的叙述,以及对其所办报纸如《启蒙画报》尤其是《京话日报》上有关庚子言说的勾勒,展现庚子之变对于彭氏走上办报开智之路的决定性
<正>大学基础组织结构的建构是建立现代大学制度的一个重要方面。当代世界各国大学,包括我国大学的基础结构正在发生着重大的变化,学术机构的数量与日俱增,传统的学院和系的
被动句一直是学界研究的热点,本文主要针对现代汉语中,无标记被动句的结构和用法进行了探究。无标记被动句在日常生活中使用频繁,其结构看似与主动句相同,背后却隐藏着深层结