NVIDIA 知乎精彩问答甄选（五） - 揭秘 NVIDIA Hopper 架构--粉丝服务平台-粉丝头条-fensifuwu.com

NVIDIA 知乎精彩问答甄选（五） - 揭秘 NVIDIA Hopper 架构

科技 08-08 来源： NVIDIA英伟达中国

NVIDIA 带来知乎精彩问答甄选系列，将为您精选知乎上有关 NVIDIA 产品的精彩问答。

本期为问答甄选第五期 —— 揭秘 NVIDIA Hopper 架构

全球 AI 基础架构的新引擎

NVIDIA 发布了首款基于 Hopper 架构的 GPU — NVIDIA H100。该款 GPU 集成了 800 亿个晶体管。H100 是全球范围内最大的性能出众的加速器，拥有革命性的 Transformer 引擎和高度可扩展的 NVIDIA NVLink® 互连技术等突破性功能，可推动庞大的 AI 语言模型、深度推荐系统、基因组学和复杂数字孪生的发展。

NVIDIA 创始人兼 CEO 黄仁勋表示：“数据中心正在转变成‘AI 工厂’。它们处理大量数据，以实现智能。NVIDIA H100 是全球 AI 基础设施的引擎，让企业能够利用其实现自身 AI 业务的加速。”

以下三个知乎甄选问答将为您了解 NVIDIA Hopper 架构 带来更加精彩的解答！

Q：

NVIDIA GTC 2022 大会官宣，Hopper 计算架构要来了，该架构有哪些值得期待的亮点？

A：

NVIDIA 宣布推出采用 NVIDIA Hopper™ 架构的新一代加速计算平台。与上一代产品相比，该平台实现了数量级的性能飞跃。这一全新架构以计算机领域的先驱科学家 Grace Hopper 的名字命名，将取代两年前推出的 NVIDIA Ampere 架构。

使用 Transformer 引擎训练 AI 模型

随着一些模型（例如大型语言模型）达到数万亿参数，AI、高性能计算和数据分析变得日益复杂。在当今计算平台上，大型 AI 模型可能需要数月来完成训练。而这样的速度对于企业来说太慢了。

NVIDIA Hopper 架构从头开始构建，凭借强大的算力和快速的内存来加速这些新一代 AI 工作负载，从而处理日益增长的网络和数据集。Transformer 引擎是全新 Hopper 架构的一部分，将显著提升 AI 性能和功能，并助力在几天或几小时内训练大型模型。

Transformer 引擎采用 16 位浮点精度和新增的 8 位浮点数据格式，并整合先进的软件算法，将进一步提升 AI 性能和功能。

采用全新 DPX 指令将动态编程速度提升 40 倍

NVIDIA Hopper GPU 架构利用全新 DPX 指令，将动态编程速度提高多达 40 倍。动态编程是一种应用于基因组学、量子计算、路线优化等领域算法中，用以解决问题的技术。

Q：

基于 Hopper 架构的NVIDIA H100 GPU 有什么突破性创新？

A：

NVIDIA H100 是首款基于 Hopper 架构的 GPU。该款 GPU 集成了 800 亿个晶体管。H100 是全球范围内最大的性能出众的加速器，拥有革命性的 Transformer 引擎和高度可扩展的 NVIDIA NVLink® 互连技术等突破性功能，可推动庞大的 AI 语言模型、深度推荐系统、基因组学和复杂数字孪生的发展。

H100 GPU 为加速大规模 AI 和 HPC 设定了新的标准，带来了六项突破性创新：

世界最先进的芯片 —— H100 由 800 亿个晶体管构建而成，这些晶体管采用了专为 NVIDIA 加速计算需求设计的尖端的 TSMC 4N 工艺，因而能够显著提升 AI、HPC、显存带宽、互连和通信的速度，并能够实现近 5TB/s 的外部互联带宽。H100 是首款支持 PCIe 5.0 的 GPU，也是首款采用 HBM3 的 GPU，可实现 3TB/s 的显存带宽。20个 H100 GPU 便可承载相当于全球互联网的流量，使其能够帮助客户推出先进的推荐系统以及实时运行数据推理的大型语言模型。
新的 Transformer 引擎 —— Transformer 现在已成为自然语言处理的标准模型方案，也是深度学习模型领域最重要的模型之一。H100 加速器的 Transformer 引擎旨在不影响精度的情况下，将这些网络的速度提升至上一代的六倍。
第二代安全多实例 GPU —— MIG 技术支持将单个 GPU 分为七个更小且完全独立的实例，以处理不同类型的作业。与上一代产品相比，在云环境中 Hopper 架构通过为每个 GPU 实例提供安全的多租户配置，将 MIG 的部分能力扩展了 7 倍。
机密计算 —— H100 是全球首款具有机密计算功能的加速器，可保护 AI 模型和正在处理的客户数据。客户还可以将机密计算应用于医疗健康和金融服务等隐私敏感型行业的联邦学习，也可以应用于共享云基础设施。
第 4 代 NVIDIA NVLink —— 为加速大型 AI 模型，NVLink 结合全新的外接 NVLink Switch，可将 NVLink 扩展为服务器间的互联网络，最多可以连接多达 256 个 H100 GPU，相较于上一代采用 NVIDIA HDR Quantum InfiniBand网络，带宽高出9倍。
DPX 指令 —— 新的 DPX 指令可加速动态规划，适用于包括路径优化和基因组学在内的一系列算法，与 CPU 和上一代 GPU 相比，其速度提升分别可达 40 倍和 7 倍。Floyd-Warshall 算法与 Smith-Waterman 算法也在其加速之列，前者可以在动态仓库环境中为自主机器人车队寻找最优线路，而后者可用于 DNA 和蛋白质分类与折叠的序列比对。

H100 的多项技术创新相结合，进一步扩大了 NVIDIA在 AI 推理和训练的领导地位，利用大规模 AI 模型实现了实时沉浸式应用。H100 将支持聊天机器人使用功能超强大的monolithic Transformer 语言模型 Megatron 530B，吞吐量比上一代产品高出 30 倍，同时满足实时对话式 AI 所需的次秒级延迟。利用 H100，研究人员和开发者能够训练庞大的模型，如包含 3950 亿个参数的混合专家模型，训练速度加速高达9倍，将训练时间从几周缩短到几天。

Q：

NVIDIA Hopper GPU 提升动态编程速度后具体的应用有哪些？

A：

动态编程是应用于基因组学、量子计算、路线优化、数据科学等领域算法中，是一种用以解决问题的技术。

组学涵盖一系列生物领域，包括基因组学（侧重于 DNA）、蛋白质组学（侧重于蛋白质）和转录组学（侧重于 RNA）。这些领域为疾病研究和药物研发等依赖于算法分析（可通过 DPX 指令加速）的关键工作提供了依据。这将有助于全球各地的医院普及基因组分析，让科学家朝着为患者提供个性化医疗的方向迈进。

无论是行走于仓库这样动态化环境中的自主机器人，还是需要将数据传输到计算机网络中多个接收端的发送者，都需要为多个移动部件找到最优线路，这一点至关重要。为了解决这一优化问题，开发者使用 Floyd-Warshall 动态编程算法来寻找地图或图形中所有成对目的地之间的最短距离。在搭载四块 NVIDIA H100 GPU 的服务器中，与传统的双插槽 CPU 服务器相比，Floyd-Warshall 将速度提升了 40 倍之多。结合 NVIDIA cuOpt AI 物流软件，这种线路优化加速可用于工厂、自动驾驶汽车中的实时应用或抽象图形中的地图构建和线路算法。

借助 DPX 指令，其他大量动态编程算法均可在 NVIDIA H100 GPU 上实现加速。量子计算领域前景广阔。在量子计算中，量子模拟的张量优化算法会使用动态编程。DPX 指令可以帮助开发者加快识别正确张量缩并顺序的过程。

另一个潜在应用领域是数据科学。使用 SQL 编程语言的数据科学家通常需要在一组表上执行多次“合并”运算。动态编程有助于找到这些合并的最佳顺序，这通常可以节省大量执行时间，从而加快 SQL 查询速度。

更多精彩问答，点击下方小程序，关注 NVIDIA 知乎账号！

NVIDIA 知乎精彩问答甄选往期精彩内容

NVIDIA 知乎精彩问答甄选（一） | 探讨人工智能成为“新电力”的桎梏与突破点

NVIDIA 知乎精彩问答甄选（二） | 探索 H100 的奥秘！

NVIDIA 知乎精彩问答甄选（三） | 探寻 Isaac Nova Orin

NVIDIA 知乎精彩问答甄选（四） | 了解 Jetson AGX Orin

更多精彩仍在继续...

敬请关注

精彩预告

第六期 NVIDIA 知乎精彩问答甄选将为您带来—— 追寻 NVIDIA Grace CPU