其他分享
首页 > 其他分享> > GPU上的基本线性代数

GPU上的基本线性代数

作者:互联网

GPU上的基本线性代数

cuBLAS库提供了基本线性代数子例程(BLAS)的GPU加速实现。cuBLAS通过针对NVIDIA GPU进行了高度优化的嵌入式行业标准BLAS API来加速AI和HPC应用程序。cuBLAS库包含用于批处理操作,跨多个GPU的执行以及混合和低精度执行的扩展。使用cuBLAS,应用程序会自动受益于常规性能的改进和新的GPU架构。cuBLAS库包含在NVIDIA HPC SDKCUDA Toolkit中

cuBLAS多GPU扩展

cuBLASMg提供了最新的多GPU矩阵矩阵乘法,每个矩阵都可以2D块循环的方式在多个设备之间分配。cuBLASMg当前是CUDA数学库早期访问计划的一部分。

cuBLAS性能

cuBLAS库针对NVIDIA GPU的性能进行了高度优化,并利用张量内核加速了低精度和混合精度矩阵乘法。

cuBLAS的主要功能

 

 

标签:基本,BLAS,矩阵,线性代数,cuBLAS,CUDA,NVIDIA,GPU
来源: https://www.cnblogs.com/wujianming-110117/p/14418957.html