Intel Xeon 8380 /8个NVIDIA A100 GPU 人工智能训练推理视觉计算

针对 AI、数据分析和 HPC 应用场景,在不同规模下实现出色的加速,有效助力全球高性能弹性数据中心。正昱推出2U机架式服务器,支持Intel 第三代处理器,搭载8块 NVADIA A100显卡。 采用 NVIDIA Ampere 架构的 A100 是 NVIDIA 数据中心平台的引擎。A100 的性能比上一代产品提升高达 20 倍,并可划分为七个 GPU 实例,以根据变化的需求进行动态调整。A100 提供 40GB 和 80GB 显存两种版本,A100 80GB 将 GPU 显存增加了一倍,并提供每秒超 2 万亿字节 (TB/s) 的高速显存带宽,可处理超大型模型和数据集。

功能强大的端到端 AI 和 HPC 数据中心平台

A100 是整个 NVIDIA 数据中心解决方案的一部分,该解决方案由硬件、网络、软件、库以及 NGC™ 中经优化的 AI 模型和应用等叠加而成。它为数据中心提供了强大的端到端 AI 和 HPC 平台,让研究人员能够快速交付真实的结果,并且大规模地将解决方案部署到生产环境中。


CPU:英特尔® 至强® 铂金 8380 处理器 * 2 (40核心80线程,三级缓存60M,基础频率2.30 GHz最大频率3.4GHz,TDP 270W)

内存:34GB DDR4 3200MHz ECC REG * 24

系统盘:3.84TB PCIE 4.0 NVMe U.2 * 1

GPU: NVDIA A100 80GB PCIE * 8(显存80GB,显存带宽1935GB/S)

网卡:25GB 光纤网卡

平台:技嘉G292-280


Intel Xeon 8380 /8个NVIDIA A100 GPU 人工智能训练推理视觉计算

功能强大的端到端 AI 和 HPC 数据中心平台

A100 是整个 NVIDIA 数据中心解决方案的一部分,该解决方案由硬件、网络、软件、库以及 NGC™ 中经优化的 AI 模型和应用等叠加而成。它为数据中心提供了强大的端到端 AI 和 HPC 平台,让研究人员能够快速交付真实的结果,并且大规模地将解决方案部署到生产环境中。

Intel Xeon 8380 /8个NVIDIA A100 GPU 人工智能训练推理视觉计算

Intel Xeon 8380 /8个NVIDIA A100 GPU 人工智能训练推理视觉计算

深度学习训练

Intel Xeon 8380 /8个NVIDIA A100 GPU 人工智能训练推理视觉计算

针对大型模型提供高达 3 倍的 AI 训练速度DLRM 训练

当今的 AI 模型面临着对话式 AI 等更高层次的挑战,这促使其复杂度呈爆炸式增长。训练这些模型需要大规模的算力和可扩展性。 NVIDIA A100 Tensor Core 借助 Tensor 浮点运算 (TF32) 精度,可提供比 NVIDIA Volta 高 20 倍的性能,并且无需更改代码;若使用自动混合精度和 FP16,性能可进一步提升 2 倍。与 NVIDIA® NVLink®、NVIDIA NVSwitch™、PCIe 4.0、NVIDIA® InfiniBand® 和 NVIDIA Magnum IO™ SDK 结合使用时,它能扩展到数千个 A100 GPU。 2048 个 A100 GPU 可在一分钟内大规模处理像 BERT 这样的训练工作负载,这是解决时间的世界纪录。 对于具有庞大数据表的超大型模型(例如深度学习推荐模型 [DLRM]),A100 80GB 可为每个节点提供高达 1.3TB 的统一显存,而且吞吐量比 A100 40GB 多高达 3 倍。 NVIDIA 的领先地位在 MLPerf 这个行业级 AI 训练基准测试中得到印证,创下多项性能纪录。

深度学习推理

A100 引入了突破性的功能来优化推理工作负载。它能在从 FP32 到 INT4 的整个精度范围内进行加速。多实例 GPU (MIG) 技术允许多个网络同时基于单个 A100 运行,从而优化计算资源的利用率。在 A100 其他推理性能增益的基础之上,仅结构稀疏支持一项就能带来高达两倍的性能提升。 在 BERT 等先进的对话式 AI 模型上,A100 可将推理吞吐量提升到高达 CPU 的 249 倍。 在受到批量大小限制的极复杂模型(例如用于自动语音识别用途的 RNN-T)上,显存容量有所增加的 A100 80GB 能使每个 MIG 的大小增加一倍,并提供比 A100 40GB 高 1.25 倍的吞吐量。 NVIDIA 产品的出色性能在 MLPerf 推理测试中得到验证。A100 再将性能提升了 20 倍,进一步扩大了这种性能优势。

Intel Xeon 8380 /8个NVIDIA A100 GPU 人工智能训练推理视觉计算

与 CPU 相比,AI 推理性能提升高达 249 倍BERT-LARGE 推理


Intel Xeon 8380 /8个NVIDIA A100 GPU 人工智能训练推理视觉计算

与 A100 40GB 相比,AI 推理性能提升1.25 倍RNN-T 推理:单流

高性能计算

为了获得新一代的发现成果,科学家希望通过仿真来更好地了解我们周围的世界。 NVIDIA A100 采用双精度 Tensor Core,实现了自 GPU 推出以来高性能计算性能的巨大飞跃。结合 80GB 的超快 GPU 显存,研究人员可以在 A100 上将 10 小时双精度仿真缩短到 4 小时以内。HPC 应用还可以利用 TF32 将单精度、密集矩阵乘法运算的吞吐量提高高达 10 倍。 对于具有超大数据集的高性能计算应用,显存容量增加的 A100 80GB 可在运行材料仿真 Quantum Espresso 时将吞吐量提升高达 2 倍。极大的显存容量和超快速的显存带宽使 A100 80GB 非常适合用作新一代工作负载的平台。

Intel Xeon 8380 /8个NVIDIA A100 GPU 人工智能训练推理视觉计算

高性能数据分析

数据科学家需要能够分析和可视化庞大的数据集,并将其转化为宝贵见解。但是,由于数据集分散在多台服务器上,横向扩展解决方案往往会陷入困境。

搭载 A100 的加速服务器可以提供必要的计算能力,并能利用大容量显存、超过 2 TB/s 的显存带宽以及通过 NVIDIA® NVLink® 和 NVSwitch™ 实现的可扩展性,处理这些工作负载。通过结合 InfiniBand、NVIDIA Magnum IO™ 和 RAPIDS™ 开源库套件(包括用于执行 GPU 加速的数据分析的 RAPIDS Accelerator for Apache Spark),NVIDIA 数据中心平台能够加速这些大型工作负载,并实现超高的性能和效率水平。

在大数据分析基准测试中,A100 80GB 提供的见解吞吐量比 A100 40GB 高两倍,因此非常适合处理数据集大小急增的新型工作负载。

Intel Xeon 8380 /8个NVIDIA A100 GPU 人工智能训练推理视觉计算

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章