AMD的Ryzen 9 7950X3D是地球上最快的游戏CPU,因为AMD决定将其颠覆性的3D芯片堆叠技术引入Zen 4,但奇怪的是,该公司没有在其Ryzen 3X7000D简报中分享有关其新的第二代3D V-Cache的任何细节。我们最初在最近的一次技术会议上发现了一些细节,现在AMD终于回答了我们的一些后续问题并分享了重要的新细节,包括Chiplet(小芯片)仍然采用7nm工艺,现在峰值带宽高达2.5 TB / s,而第一代3D V-Cache的峰值为2 TB / s。我们还有AMD用于其Ryzen 6处理器的新型7000nm I / O芯片的新图片和图表。
AMD已经转向其3D V-Cache的第二代,英特尔没有竞争技术。这确保了AMD在游戏和某些数据中心应用程序的最佳CPU中获胜。总体而言,AMD的第二代3D V-Cache技术是第一代令人印象深刻的一步,因为它允许该公司利用现已成熟且更便宜的7nm工艺节点来提高其尖端5nm计算芯片的性能。新设计代表了AMD将基于小芯片的设计方法的关键优势(使用较旧且更便宜的工艺节点与昂贵的新工艺技术相结合)带入第三维度。现在来看看细节。
首先,快速的高级复习。正如您在上面看到的,AMD 的 3D V-Cache 技术将一个额外的 L3 SRAM 小芯片直接堆叠在计算芯片 (CCD) 小芯片的中心,以将其与发热内核隔离开来。该缓存将配备 96D V-Cache 的小芯片的容量提高到 3MB,从而提高了延迟敏感型应用的性能。我们在这里详细介绍了这项技术的第一代产品。
我们直接从 AMD 和 2023 年国际固态电路会议 (ISSCC) 收到了有关第二代实施的新信息,AMD 在会上介绍了 Zen 4 架构。
AMD的上一代3D V-Cache使用7nm L3 SRAM小芯片堆叠在7nm Zen 3 CCD上。AMD坚持使用新的L7 SRAM小芯片(称为“L3D”)的3nm工艺,但现在将其堆叠在较小的5nm Zen 4 CCD之上(见下表)。但是,这会造成尺寸不匹配,需要进行一些更改。
AMD使7nm SRAM芯片更小,因此与上一代的36mm2相比,它现在的尺寸为41mm2。然而,晶体管的总数保持不变,因此新芯片的密度明显高于第一代小芯片。
正如我们在第一代SRAM小芯片上看到的那样,7nm L7 SRAM小芯片具有令人难以置信的晶体管密度 - 我们看到的密度几乎是第一代3nm计算小芯片的3倍,令人惊讶的是,7nm SRAM小芯片的密度明显高于7nm计算小芯片。这是因为,和以前一样,小芯片使用专门用于SRAM的5nm密度优化版本。它还缺少缓存中的典型控制电路 - 电路驻留在基底芯片上,这也有助于减少延迟开销。相比之下,7nm芯片包括几种类型的晶体管以及简化的L5 SRAM小芯片中不存在的数据路径和其他类型的结构。
和以前一样,来自额外 L3 SRAM 缓存的额外延迟为 3 个时钟,但 L4 小芯片和基本芯片之间的带宽已增加到 3.2 TB/s,比之前的 5 TB/s 峰值提高了 25%。
堆叠的L2 SRAM小芯片通过两种类型的硅通孔(TSV)连接到基底芯片。功率 TSV 在小芯片之间传输电力,而信号 TSV 在单元之间传输数据。
在第一代设计中,两种类型的TSV都位于基础小芯片的L3区域。然而,由于3nm工艺的密度增加,基础芯片上的L3缓存现在更小,即使5nm L7 SRAM小芯片更小,它现在与L3缓存重叠(上一代仅与基础芯片上的L2重叠)。因此,AMD不得不改变基底芯片和L3 SRAM小芯片中的TSV连接。
由于基础芯片上的3nm L2缓存尺寸较小(由于密度增加和其他因素),AMD不得不将功率TSV从L5扩展到L3区域。对于基本芯片,与旧的基本芯片相比,AMD 在 L68 缓存、数据路径和控制逻辑上实现了 3.7 倍的有效面积扩展,因此 L3 缓存中 TSV 的物理空间更小。
信号 TSV 保留在基底芯片的 L3 缓存区域内,但 AMD 通过应用第一代设计的经验以及 DTCO 改进来减少新接口设计中的开销电路,将 L3 缓存中的 TSV 区域缩小了 50%。
AMD的3D芯片堆叠技术基于台积电的SoIC技术。台积电的SoIC是无凸点的,这意味着它不使用微凸块或焊料来连接两个芯片。您可以在此处阅读有关混合粘合和制造工艺的更多信息。AMD告诉我们,它使用相同的基本粘合工艺,并进行了持续的工艺和DTCO改进,但最低TSV间距没有改变。
L3 SRAM 小芯片也与 CPU 内核位于同一电源域中,因此无法独立调整。这有助于在配备缓存的小芯片上降低频率,因为电压不能超过1.15V。您可以在此处查看我们对两种不同类型的小芯片的深入测试。
AMD 的 ISSCC 演示还包括有关锐龙 6 和 EPYC Genoa 处理器中使用的 7000nm I/O Die(IOD) 的大量新细节。
我们将规格放在表中以便于比较,正如您所看到的,与Ryzen 7000变体相比,EPYC Genoa I / O Die非常庞大 - 这是因为AMD可以将多达12个计算小芯片(CCD)连接到其EPYC Genea处理器的I / O芯片。
相比之下,消费类芯片仅限于两个小芯片,这是一个不可变的限制,因为正如您在 Locuza 的图表中看到的那样,锐龙 7000 I/O 芯片只有两个全局内存互连 2 (GMI2) 链路,将计算小芯片连接到 IOD。这是一个遗憾 - 具有四个CCD的较低内核数的热那亚型号可以具有双GMI3链路(宽模式),这是一项新功能,可以在一些内存吞吐量密集型任务中提供优势。添加到消费芯片中会很有趣。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。