DCU 上的 Matrix Core 编程(part1)
· 10 min read
预备知识:Matrix Core 简介
英伟达GPU上,Volta架构首次引入 tensor core,可以在一个周期内计算完两个4*4矩阵的乘法,其最广泛的用法就是矩阵乘,因此tensor core硬件受到深度学习研究者的广泛欢迎。
AMD 的GPU,也自 CDNA架构开始引入 Matrix Core,来对标 NVIDIA Tensor Core。 由于功能类似,所以有时候,我们也将 Matrix Core 称为 tensor core,但这两者在编程接口上区别还是比较大的。 DCU 架构的GPU,由于部分采用ROCm生态,其上的 Matrix Core 编程接口和 AMD GPU相近,因此很多 AMD GPU的编程资料可供参考。
- AMD Matrix Core 文档:https://rocm.blogs.amd.com/software-tools-optimization/matrix-cores/README.html
- 另一个关于 Matrix Core 的介绍:https://leiblog.wang/High-Performance-AMD-Matrix-Core/