基于CUDA的信号处理基本模块优化实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:icanfly316
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的单核处理器的性能由于散热、功耗等问题,已无法与硬件资源发展速度相适应,但近年来高性能计算领域的新兴应用的发展对计算机的性能要求却越来越高。相对于传统的单核处理器,多核/众核处理器可利用线程级并行获得性能提升,从而更好地满足高性能计算领域对计算机的性能要求,目前已被学术界和产业界广泛接受。然而,多核/众核平台虽拥有较高的浮点峰值和计算能力,但它的结构和编程环境具有一定的复杂性,如何充分挖掘众核处理器的强大计算能力便成为了一个突出的问题。为了解决该问题,探索众多应用中的核心算法,并针对多核/众核平台特点对其进行优化便显得尤为重要。本文以信号处理算法中用的比较多的稠密矩阵乘法、矩阵求逆和FFT运算作为规则应用核心算法的代表进行研究。本文首先介绍矩阵的基本运算在CUDA架构下的实现,对于矩阵乘法来说,从矩阵乘法的定义出发,用带状划分的方式进行实现;然后考虑到可以通过利用共享内存来减少对全局内存的访问次数,提高程序性能,采用棋盘阵列划分的方式进行实现;最后考虑到每个SM中有着许多的寄存器资源,可以改变计算方式,增加对寄存器的使用,进一步提高程序性能。对于矩阵求逆来说,最初版本是根据高斯消元法开辟两块空间分别存储原矩阵和单位阵,分别进行归一操作和消元操作,然后注意到有一些线程的操作数是零,做了无用运算,浪费计算资源,优化后将原矩阵和单位矩阵结合到一起,提高计算资源利用率。对于FFT算法来说,在分析FFT并行性特征的基础上,采用多线程并行的映射方法实现算法,并从存储层次进行优化算法;然后考虑到一般的DIF-FFT输入数据不是正常序,需要倒序重排,这一部分的运算需要在CPU端进行,而数据频繁地在主机端和设备端之间传输会降低程序性能,因此可以采用输入输出都是正常序的DIT-FFT来避免,提升程序性能。实验结果表明,这三个模块在CUDA架构下的实现跟CPU下的实现方式相比能达到上十倍的加速比,跟CUDA自带的CUBLAS库和CUFFT库相比也有着一定的优越性。
其他文献
运用统计学理论,从样本企业选择、样本线路选择及数据采集等方面着手,采用加权平均法探讨普通货物公路运输价格指数的编制方法;以交通运输部开展道路货运价格与成本监测试点
目的:探讨B-Lynch缝合术在胎盘早剥产后出血治疗中的止血效果。方法回顾性分析2009年1月~2014年1月我院收治的27例胎盘早剥患者采用B-Lynch缝合术的止血效果。结果27例患者中
目的探究老年乳腺癌患者接受保乳术与前哨淋巴结活检联合治疗以及传统改良手术治疗的价值。方法选取老年乳腺癌患者60例,根据其治疗措施的不同分组,其中对照组实施改良手术治
鉴于现行方法无法对电抗器运行状态进行在线检测,文章提出了电抗器匝间绝缘的检测方法,利用高频脉冲对电抗器进行测试分析,以提高电抗器的投运质量。同时,对运行中的电抗器设
目的:观察阿托伐他汀与瑞舒伐他汀对高龄急性冠状动脉综合征(ACS)患者氯吡格雷抗血小板活性的影响。方法:选取68例行氯吡格雷治疗的高龄ACS患者,按照临床不同医治方案分为对
随着中国重工业的不断发展,随之而来的环境问题也越发突出。最近多处城市频繁出现雾霾天气,空气质量日益下降,影响着人们的健康。大气污染已经作为一项亟待解决的问题,引起了人们
糯稻在我国具有悠久的栽培历史,在长期的种植过程中,逐渐形成了适应不同地区的生态类型,而且糯稻品种资源极其丰富,由于糯稻具有独特的食用价值,因此,向来受到人们的喜爱。本文就糯
期刊
卡匣基板检测装置是基于光电传感器的检测装置,广泛应用于液晶面板行业。文章主要介绍了卡匣基板检测装置的原理及其应用。
《蒙古字韵》是元朝初期由政府组织编撰的一部蒙汉对音教科书,也是一部特殊形式的韵书。它的韵字编撰参照金人礼部韵修订本王文郁的《新刊韵略》,按照当时的实际语音就其原来