论文部分内容阅读
我们介绍了用8系列的NVIDIAGPU来做密集线性代数的性能。我们的GEMM(通用矩阵乘法)程序比提供商的实现速度提升了60%,并且达到了硬件性能的峰值。我们的LU,QR和丘列斯基(矩阵)分解都达到了GEMM峰速的80—90%。我们在两个GPU上并行的LU达到了约300Gflop/s。这些结果是通过挑战对GPU的现有观点和编程指导思想而实现的。我们认为新型GPU应该被看成多线程多核的向量单元。