[博客翻译]AMD GPU上的矩阵核编程
AMD CDNA3与CDNA4架构中的矩阵核心编程
作者:Amanzhol Salykov, Andy Luo, Carlus Huang, Peng Sun
发布日期:2025年9月30日
核心摘要
本文将带您探索如何在HIP内核中使用AMD CDNA™架构的矩阵核心(Matrix Core),重点介绍FP16、FP8和FP4等低精度数据类型,以及CDNA4架构新增的指数块缩放指令。通过代码示例和图示,我们将解析现代低精度浮点类型、矩阵核心编译器内置函数,以及指令所需的数据排布方式。本文同步发布于ROC...