矩阵乘相关论文
矩阵乘作为许多科学应用中被频繁使用的关键部分,其计算量巨大且稠密的本质,使得高性能计算领域中矩阵乘并行算法的研究一直是经久不......
深度学习已经成为解决机器学习问题的重要手段。在图像分类,语音识别,文本翻译等领域,深度学习都取得了很好的效果。由于训练精确的模......
光化学反应模拟是指用计算机模拟激光与各种物质间发生的化学反应。由于其模拟结果与真实实验极为接近,可以通过调控模拟过程中不同......
传统求图传递闭包的方法存在计算量大与计算时间长的问题。为加快处理大数据量的传递闭包算法的计算速度,结合算法密集计算和开放......
对采用多核处理器作为SMP集群系统的计算节点的系统上的一种混合编程模型-MPI+OpenMP混合编程模型进行了深入的研究。建立了两个矩......
首先介绍了网格的组成与特点及其在实际应用中存在的问题;然后将LogP并行计算模型拓展到网格上,提出双层LogP模型;基于该模型给出......
针对网格划分的并行思想,以大型矩阵乘法为例,讨论了机群下并行子任务间分配策略的优化.描述了对矩阵实行网格划分的基本方法和并行算......
为了提高半经典分子动力学模拟中矩阵乘法效率,通过一种稀疏矩阵分解方法化简矩阵乘法,基于OpenMP实现矩阵相乘的Winograd并行算法......
数值预报系统中经常要用到矩阵乘运算.在分布式超级计算机(如IBM-SP)上,矩阵乘的并行计算需要较多的数据移动,有效的数据传输对矩......
首先介绍了几种分布式环境下的矩阵乘并行算法;给出了它们的时间复杂性和空间复杂性;并对该算法的复杂性进行了详细地分析与比较;......
脉动阵列结构规整、吞吐量大,适合矩阵乘算法,广泛用于设计高性能卷积、矩阵乘加速结构。在深亚微米工艺下,通过增大阵列规模来提......
简要讨论了大型结构动力分析的子空间迭代法的主要工作量分布,对该方法并行计算的可行性进行了分析,并介绍了具体实施步骤,用示例验证......
给出了基于VLSI计算模型的二维DFT(离散富里叶变换)的阵列算法及其处理流程图,在此基础上,利用矩阵乘的Wavefront阵列,提出了二维D......
提出了一种新的基于对角划分的矩阵乘并行算法,它在以往行列划分策略的基础上,采用基于对角划分的策略.数值试验表明该算法具有较......
分布式并行矩阵乘算法包括简单并行分块乘、Cannon、Fox、矩阵乘并行、B-S、B迁移和C迁移算法.并行分块乘法在同行处理器间进行多......
在De Bruijn网络中进行并行矩阵乘法运算,算法简单,容易实现。首先介绍了De Bruijn网络结构,然后提出了一种基于De Bruijn网络结构......
BLAS level-3运算的计算复杂度较高,其往往成为应用的性能瓶颈。采用线性阵列结构的矩阵乘协处理器可实现高性能、高效的矩阵乘运......
【正】§3 几种特殊矩阵及其性质这里介绍几种特殊结构的n阶矩阵(方阵).(一)三角矩阵n阶矩阵 A=(a<sub>ij</sub>n×n中,如果当......
为了解决矩阵乘算法并行化的问题,根据Biswapped网络结构的特点,提出了一种基于Biswapped网络结构的矩阵乘并行算法。该算法采用一种......
期刊
为了优化矩阵乘法的并行运算效率,提高流水线的性能,采用了基于Strassen算法的矩阵乘运算,并通过编码在DLX模拟的并行流水线环境中......
期刊
矩阵乘法是数值分析领域中一种十分常用的基本运算,被广泛应用于模式识别、图像和信号处理。由于矩阵运算具有局部性、一致性的特......
本文提出了一种基于FPGA和DBN的手写体图像识别算法的实现方案。通过将DBN网络转换成大数据量矩阵运算,并借助Matlab对算法进行设......
大维度矩阵乘法常采用子矩阵分块法实现,子矩阵的最大规模决定了整个矩阵乘法执行速度。针对经典脉动结构直接处理的矩阵规模受IO......
本文提出一种新型的先进信号处理结构。该结构是把一个线性收缩阵列,一个全局数据通道和本地存储器结合成一个极为灵活的可编程处......
矩阵乘运算在多个应用领域特别是数值计算领域被广泛使用,但双精度浮点矩阵乘在CPU,GPGPU,FPGA等现有计算平台上的性能和效率受限,......
大规模三角线性方程求解是科学与工程应用中重要的计算核心,受限于处理器的缓存容量和结构设计,其在CPU和GPU等平台上的计算效率不......