小波分解算法在CUDA上的访存性能分析与优化

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zgb99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和信息处理技术的不断发展,离散小波变换凭借着良好的时域特性和局部特性,逐步成为了图像压缩技术的核心算法。针对小波变换Mallat算法复杂度高、访存次数多、占用内存大的特点,Wim Sweldens等人提出了快速提升小波变换算法,该算法具有不依赖傅里叶变换、计算速度快,内存占用少等特点。小波分解算法以具有单指令多数据特性被广泛地移植到计算机统一设备架构CUDA(Computer Universal Device Architecture)上计算。小波分解算法在CUDA上执行一般分为水平方向滤波和垂直方向滤波两步,其中常见的水平方向滤波的方式为Spiht方式,垂直方向滤波的方式有四种:Spiht方式,转置后水平方向滤波方式,Slab方式和Slice方式。针对垂直方向模式的四种移植方式,分别从数据重用、全局内存合并访存、共享内存Bank冲突、通道偏斜和分支跳转5个方面对小波分解算法做访存性能评估,得到如下结论:Spiht方式没有使用全局内存合并访存,性能比较差;转置后水平方向滤波方式使用了全局内存合并访存,且共享内存中的数据重用次数较多,性能比较好;Slab和Slice方式尽管使用了全局内存合并访存,但是共享内存数据重用次数不多,性能不高。针对上述理论结论及Mallat算法和提升算法的不同计算特点,对Slab和Slice方式的实现过程的共享内存中数据重用进行改进,达到提高共享内存数据重用次数的目的。实验结果表明,改进后的垂直方向滤波的实现方式取得了较好的加速比。
其他文献
在设备产品软硬件设计与开发过程中,硬件设计与开发周期相对较长,而软件设计与开发周期相对较短。当软件设计与开发完成后,无法立即对软件与硬件进行高效、并发的调试,必须等
进入信息时代后,众多的服务提供商积累了大量的用户数据。数据共享可以避免由于雪藏数据带来的浪费,但是共享的数据往往涉及用户的隐私。因此,数据发布过程中的用户隐私保护
近几年来,智能视频监控逐渐成为计算机视觉领域的一个新兴应用方向,它与传统意义上的监控系统的区别主要在于其智能性,即智能视频监控不仅用摄像机代替人眼,而且用计算机来代
知识图谱(Knowledge Graph)作为大数据时代的重要基础设施,已经在下一代搜索引擎、智能问答系统等智能应用中有了广泛应用。知识图谱规范地定义了知识的存储,并且可以较为方便和高效的进行知识推理和决策。面向特定领域的知识图谱应用研究也越来越多。比如在旅游领域,已经出现了一些旅游知识图谱的构建和应用,但是对于一些游客直接关心的信息还没有覆盖到。已有的基于旅游知识图谱的产品也都是以知识图谱为辅助
学位
随着科学技术的快速发展,以计算机与网络技术为主导的信息技术已渗透到了社会生活的各个方面。精细农业技术是一种依托3S技术,以信息为基础的农业信息技术,又是依据农田信息
随着多媒体信息技术的迅猛发展,图像数据以前所未有的速度增长。面对海量的图像数据,利用计算机对数据进行有效管理成为一项紧迫任务。在此基础上提出的图像场景分类对图像检
在粗糙集的理论研究中,有很多重要的概念,其中的属性约简是在粗糙集研究中的最重要的研究内容。随着数据量的增加,在粗糙集模型上进行分类效率大幅度的降低,因此属性约简显得
随着海洋探测与开发的不断深入,对具有自主导航能力的水下机器人的需求越来越大。在深海复杂环境中,单一的传感器设备都无法满足高精度自主导航的要求,而采用多传感器信息融
随着互联网技术和计算机技术的发展,信息科技正深入地影响着人们的生活。移动互联网的发展,特别是第三代移动通信(3G)技术的推广和应用,更是提供了强大的承载通道和丰富的业
目前,数据采集系统在工程建设、科研、控制等多个领域应用广泛,而且很多领域对系统的实时性和处理速度要求很高,但系统成本上又控制得很严格。ARM公司的Cortex-M3内核正好符合这