AMD 正式成为第一个采用 MCM 技术的公司,他们正在使用代号为 Aldebaran 的 Instinct MI200 来实现这一目标。AMD Aldebaran GPU 将有各种形式和尺寸,但它都基于全新的 CDNA 2 架构,这是 Vega 最精致的变体。下面列出了我们详细介绍之前的一些主要功能:
· AMD CDNA 2 架构——第二代矩阵核心加速 FP64 和 FP32 矩阵运算,与 AMD 上一代 GPU 相比,峰值理论 FP64 性能高达 4 倍。
· 领先的封装技术——业界首创的多芯片 GPU 设计采用 2.5D 高架扇出桥 (EFB) 技术,提供比 AMD 上一代 GPU 多 1.8 倍的内核和高 2.7 倍的内存带宽,提供业界最佳的总峰值理论内存带宽每秒 3.2 TB。
· 第三代 AMD Infinity Fabric 技术——多达 8 个 Infinity Fabric 链路将 AMD Instinct MI200 与 节点中的第三代 EPYC(霄龙)CPU 和其他 GPU 连接起来,以实现统一的 CPU/GPU 内存一致性并最大限度地提高系统吞吐量,从而为CPU 代码可利用加速器的功能。
AMD Instinct MI200 GPU Die Shot:
AMD Instinct MI200 内部是一个 Aldebaran GPU,具有两个芯片,一个辅助芯片和一个主芯片。它有两个模具,每个模具由 8 个着色器引擎组成,总共 16 个 SE。每个着色器引擎包含 14 个 CU,具有全速率 FP64、打包的 FP32 和用于 FP16 和 BF16 操作的第二代矩阵引擎。整个 GPU 采用台积电的 6nm 工艺节点制造,共有 580 亿个晶体管。
AMD Instinct MI200 GPU 框图:
因此,每个芯片由 112 个计算单元或 7,168 个流处理器组成。整个芯片总共有 224 个计算单元或 14,336 个流处理器。Aldebaran GPU 也由新的 XGMI 互连提供支持。每个小芯片都具有 VCN 2.6 引擎和主 IO 控制器。每个 GPU 小芯片都有四个用于 HBM2e 内存的 1024 位内存控制器。
至于缓存,每个 GPU 小芯片共有 8 MB 的 L2 容量,被物理划分为 32 个切片。每个 slice 提供 128B/CLK,具有增强的排队和仲裁以及增强的原子操作。每个 GCD 内存子系统包括每个小芯片 64 GB 的 HBM2e 内存,每个 GCD 的总带宽为 1.6 TB/s,被划分为 32 个通道,具有 64B/CLK 以实现高效的工作电压。封装内互连包括跨两个 GCD 的 400 GB/s 双向带宽。
共有 8 个 Infinity Fabric 互连,每个 GPU 上的一个可用于 PCI-Express 互连。互连的额定 CPU-GPU 传输速率为 144 GB/s。您可以使用带有总共四个 MI200 系列 GPU 的外部 Infinity Fabric 链路扩展至 500 GB/s,或者使用 PCIe Gen 4 ESM AIC 横向扩展以获得 100 GB/s 带宽。
AMD Instinct MI200“Aldebaran GPU”性能指标:
在性能方面,AMD 吹捧在 HPC 领域的多项创纪录胜利,超过了 NVIDIA 的 A100 解决方案,AMG 的性能提升高达 3 倍。
至于 DRAM,AMD 采用了由 1024 位接口组成的 8 通道接口,用于 8192 位宽总线接口。每个接口可支持 2GB HBM2e DRAM 模块。这应该为每个堆栈提供高达 16 GB 的 HBM2e 内存容量,并且由于总共有 8 个堆栈,总容量将高达 128 GB。这比装有 80 GB HBM2e 内存的 A100 多 48 GB。内存将以 3.2 Gbps 的惊人速度进入,全带宽为 3.2 TB/s。这比具有 2 TB/s 的 A100 80 GB 多出 1.2 TB/s 的带宽。
AMD Instinct MI200 CDNA 2 “Aldebaran” GPU 已经为世界上最快的超级计算机Frontier提供动力,这也是世界上第一台 Exascale 机器,提供 1.1 ExaFLOPs 的计算马力,目前在TOP500和Green500列表中名列前茅. AMD 还公布了Instinct MI300 APU 系列的未来计划,该系列将进一步利用小芯片架构并将事情提升到一个新的水平。
| 留言与评论(共有 0 条评论) “” |