英特尔可以考虑进入 GPU 计算领域的原因之一是:在 IT 市场中,每一个细分领域都至少有三个竞争对手,但是由于半导体产业资本密集型的特点,该领域必然会出现合并。
英伟达声称发明了现代图形处理单元,这不太靠谱,因为专用图形芯片在 1970 年代出现在街机游戏中,在 1980 年代出现在 PC 中,并在 1986 年出现德州仪器 TMS34010 图形芯片和 IBM 8514 显卡1987 年用于 IBM 自己的 PS/2 系统。2D 图形加速始于 1987 年的 ATI Technologies,它在 1991 年催生了竞争对手 S3;3D图形加速以及大量计算的集中始于1995年的S3和ATI,但据公司创始人黄仁勋(Jensen Huang)、克里斯·马拉乔夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)介绍,Nvidia成立于两年前,因为他们的卡缺乏良好的性能和低成本,所以成立了他们。
AMD/ATI 和英特尔正在追逐英伟达,以获得用于 AI 和 HPC 工作负载的庞大、丰富的数据中心计算预算。凭借其“Aldebaran”Instinct MI250X GPU 加速器与“ Trento ”和“ Genoa ”Epyc CPU相结合的激进性价比,AMD 已经开辟了百亿亿次级 HPC 机会,并寻求通过未命名的扩展其优势Instinct MI300 系列,在一个封装中有一对 CPU 和六个 GPU,将于今年晚些时候发货。英伟达将在 2023 年下半年做出回应,将其“Grace”Arm 服务器芯片与其“Hopper”GH100 GPU 加速器集成在一个封装中。
英特尔为数据中心提供的第一个真正的GPU计算引擎(我们不计算失败的“Larrabee”X86 GPU或其衍生的“Knights”系列多核心CPU)当然是“Ponte Vecchio”Max系列GPU,它尚未批量交付,是进入阿贡国家实验室的2台exaflops“Aurora”超级计算机的核心。
“部署进展顺利,英特尔在测试和开发方面密切合作,”英特尔加速计算系统和图形业务临时总经理兼超级计算集团总经理 Jeff McVeigh 上周在一篇博文中解释道。“Argonne 预计该系统将在 2023 年第三季度之前供早期研究人员使用。”
很难说这是否意味着 Ponte Vecchio GPU 加速器的又一次延迟,它已经多次推迟了 Aurora 系统的交付。(Sapphire Rapids 的延迟也无济于事。)这台机器将拥有超过 10,000 个节点和超过 20,000 个“Sapphire Rapids”至强 SP,带有 HBM2e 堆栈 DRAM 内存(称为 Max 系列 CPU)和超过 60,000 个 Ponte Vecchio GPU,所有与 Hewlett Packard Enterprise 的 Slingshot 11 互连结合在一起。去年 11 月,McVeigh 表示 Ponte Vecchio 将首先在 Aurora 系统中交付,然后在 2023 年第二季度初可用于其他 HPC 和 AI 系统设计,大概在一个月以后。
英特尔计划推出名为“Rialto Bridge”的后续产品,然后也开始使用自己的名为“Falcon Shores”的混合 GPU-CPU 计算包,并且可能也在 Max 系列中,如 Sapphire Rapids HBM CPU 和两个离散GPU、Ponte Vecchio 和Rialto Bridge。
随着英特尔在美国和欧洲的联邦政府摇摆不定,以便它可以再次成为世界级的代工厂,并试图在不影响其市场地位的情况下尽可能地削减成本,英特尔决定扼杀关闭 Rialto Bridge GPU。
Rialto Bridge 独立 GPU原定于今年面世,将 Xe图形核心数增加到 160 个,比52 teraflops Ponte Vecchio 设备的128 个 Xe核心增加了 25%。它将与具有 HBM 内存的“Emerald Rapids”Xeon SP 搭配使用。
考虑到英特尔很难推出 Ponte Vecchio 封装,它有 47 个小芯片,使用多种芯片制造工艺和互连方法,可以理解的是,客户在看到 Rialto Bridge 之前可能有点犹豫。由于 AMD 和 英伟达都专注于混合 CPU-GPU 封装,而英特尔需要削减成本。
McVeigh 表示,英特尔将在用于 HPC 和 AI 计算的 Max 系列以及旨在视频处理和 AI 计算的 Max 系列以及旨在视频处理和人工智能推理。
“这符合客户对新产品推出的期望,并有时间开发他们的生态系统,”麦克维在帖子中说。“目标是在 2025 年推出,Falcon Shores 灵活的基于小芯片的架构将解决 HPC 和 AI 计算需求的指数增长。我们正在研究该架构的变体,支持 AI、HPC 和这些市场的融合。随着时间的推移,这种基础架构将能够灵活地集成来自英特尔和客户的新 IP(包括 CPU 内核和其他小芯片),这些 IP 是使用我们的 IDM 2.0 模型制造的。Rialto Bridge 旨在对我们当前的架构进行渐进式改进,但将停止使用。”
英特尔从未公开承诺 Falcon Shores 的日期——路线图中的 X 轴从未说过 2024 年,但当时每个人都预料到了。但很明显英特尔的混合CPU-GPU包应该会与AMD的Instinct MI300和英伟达的Grace Hopper组合进行竞争。
McVeigh 补充说,当前“Arctic Sound”Flex 系列 GPU的后继产品(代号为“Lancaster Sound”,预计在今年推出)将被取消,而下一个代号为“Melville Sound”的开发将有一个“重大的架构飞跃”和 Lancaster Sound 的取消让英特尔“加速开发”Melville Sound。
为了弥补 Rialto Bridge 的损失,我们十分期望 Falcon Shores GPU 的变体只有 Xe GPU 内核,正如英特尔去年 6 月在谈论 Falcon Shores 时所展示的那样:
也许确实会有五种不同的 Falcon Shores 配置,比上面显示的三种多两种——一种是 CPU 和 GPU 按小芯片面积各占一半,一种是 25% CPU 和 75% GPU,还有一种是 25% GPU 和 75% 的 CPU 是合乎逻辑的。因此,从一种思考方式来看,英特尔只是在 Rialto Bridge 上进行另一项工艺缩减,可能将 GPU 内核再提高 25%,然后在封装上提供不同的 CPU 和 GPU 组合,并将整个过程推出一个年或更长时间。
有人说2025 年的第一款 Falcon Shores 设备将只有 GPU 内核,因此混合 CPU-GPU 变体定于 2026 年推出。坦率地说,全 CPU 变体可能会随 HBM3 一起推出内存远远领先于 2024 年的“Granite Rapids”Xeon SP 或 2025 年的“Diamond Rapids”Xeon SP。Shores 包的全 GPU 变体实际上在 Bridge 系列中,而 Shores 系列中的全 CPU 变体是在 Rapids 系列中有效。
重要的是英特尔要到 2026 年才会推出混合 CPU-GPU Shores 设备。这对英特尔的 Shores 设备来说太晚了,无法有效地与 AMD 第二代 Instinct MI400 混合设备竞争也许同时是英伟达“Ada”CPU 和“Lovelace”GPU 混合体。(最新的英伟达GPU 不应该被称为 Ada Lovelace,因为它打破了 Grace CPU 和 Hopper GPU 的对称性。)
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。