[博客翻译]在单精度通用矩阵乘法中击败cuBLAS
超越cuBLAS的单精度通用矩阵乘法
2025年1月12日 • Aman Salykov
本项目灵感来源于Andrej Karpathy、George Hotz、Scott Gray、Horace He、Philippe Tillet、Jeremy Howard、Lei Mao等杰出人士的工作,以及GPU MODE社区(Discord服务器)中顶尖的CUDA开发者。特别感谢Mark Saroufim和Andreas Köpf运营GPU MODE,并为社区所做的一切。
代码可在sgemm.cu获取。本文是对...