制裁分界线的A100,悬在自动驾驶公司头上的达摩克利斯之剑?

集微网消息,新一代智能汽车需要通过能够驱动先进技术的AI 基础设施来打造。随着各车企在城市NoA上如火如荼地推进,对云端训练算力的需求自然也水涨船高。

不过,近期美国政府颁布的一道限令,或让中国的自动驾驶行业发生“地震”。据综合路透社、彭博社、《纽约时报》等外媒报道,英伟达、AMD已经接到美国政府通知,要求停止向中国出口其尖端人工智能芯片,其中涉及英伟达A100、H100以及AMD的MI250芯片等。

“美对华断供高端GPU”的消息甚嚣尘上,着实让国内车企感受到了危机。何小鹏在朋友圈直言,这个坏消息,“对所有自动驾驶云端训练带来挑战。”美国打压中国AI产业发展意图明显,作为AI关键应用的自动驾驶,美国本次限制高端GPU的供应,中美自动驾驶企业的未来将会走向何方?

制裁分界线的A100,性能如何?

美国对于GPU的制裁,集微调查已在《GPU制裁始末 美国欲限速中国AI》一文已展开分析。总的来说,美国对GPU的打压,意图是为了给中国AI产业设置上限,避免中国成为“利用人工智能更快”的一方。

此前,美国商务部制定了“芯片性能达到A100阈值”作为制裁的分界线。为何美国会把英伟达的A100芯片作为限制的阈值?其性能表现如何?

据英伟达资料介绍,英伟达近几年在云端AI芯片的性能进步尤为神速,尤其是2020年推出的A100和即将推出的H100,也就是英伟达被美国政府禁掉的两款芯片。英伟达A100 GPU,基于Ampere架构,采用7nm制程,其芯片面积是826平方毫米,晶体管数量542亿颗,TDP(热设计功耗)为400W,FP32峰值算力为19.5TFLOPS。A100相对于前代的V100是个巨大的飞跃。

为了加快产业AI和HPC时代的到来,英伟达在其HGX平台中添加了三项关键技术,分别是NVIDIA A100 80GB PCIe GPU、NVIDIA NDR 400G InfiniBand网络和NVIDIA Magnum IO GPUDirect Storage软件。

基于A100GPU打造的NVIDIA HGX A100是专为AI场景设计的高性能服务器平台,包含了许多大型数据集和复杂的模型(比如,用于驱动自动驾驶汽车的模型)。该平台在NGC中整合了经过全面优化的NVIDIA AI软件堆栈,具5 PETAFLOPS的AI性能,树立了计算密度的新标杆。

A100对本土智驾企业的作用

目前,国内的蔚来、小鹏、毫末智行等厂商都在使用A100打造自动驾驶训练中心,或构建综合全面的数据中心基础设施,并在此基础上开发 AI 驱动的软件定义汽车。

寒武纪董事长、总经理陈天石近期在WAIC芯片高峰论坛上直言,“在自动驾驶领域,算力已成为核心驱动力。国际领先车企已加大在数据中心算力的布局,云端数据中心已成为自动驾驶研发的核心基础设施。”

行业周知,数据中心可以采集、整理和标记海量数据,以用于训练大型AI模型。数据采集车队每年产生数百PB的数据和数十亿张图像。这些数据会被用于优化将在车辆中运行的深度神经网络(DNN)。凭借高性能计算,车企可以在复杂的深度学习模型上不断迭代,在闭环环境中构建强大的自动驾驶算法。

以蔚来为例,其可扩展AI基础设施由 NVIDIA HGX驱动,这个超算集群中包含一组NVME SSD服务器,并通过高速NVIDIA Quantum InfiniBand 网络平台相互连接,传输速率高达200Gbps,可将大量深度学习训练数据传输到超级计算机内存或NVIDIA A100显存。

凭借HGX A100,蔚来自动驾驶研发平台(NADP)能够以一站式平台管理大量复杂的AI应用,并将模型开发效率提高20倍,进而缩短自动驾驶汽车的上市周期,开发出更新、更快的架构。

基于该基础设施,蔚来顺利开发并推出了智能汽车ET7 以及后续将推出ET5。这两款车型还在搭载了4个NVIDIA DRIVE Orin 系统级芯片的Adam超算平台上构建,自动驾驶和智能座舱功能可以通过数据中心不断迭代和改进。

蔚来 AI 平台负责人白宇利曾表示,量产车面临的复杂场景是蔚来自动驾驶能力的试金石,同时,量产车产生的海量数据也是蔚来自动驾驶能力护城河。NVIDIA的高性能计算解决方案,成为蔚来在自动驾驶这条道路上的加速器。

“GPU制裁”影响几何?

美国对于GPU的制裁无疑是要阻止国内自动驾驶的加速。

“这会对所有自动驾驶云端训练带来挑战。”何小鹏指出,“好消息是刚好我们已经将未来几年的需求提前买回来了。”

何小鹏的好消息,或是指其自动驾驶智算中心“扶摇”。一个月前,小鹏汽车联合阿里云,宣布在内蒙古乌兰察布建成中国最大的自动驾驶智算中心“扶摇”,用于自动驾驶模型训练。

据了解,小鹏“扶摇”数据中心,算力可达600PFLOPS(每秒浮点运算60亿亿次),将小鹏汽车自动驾驶核心模型的训练速度提升了近170倍,该数据中心目前已经用于小鹏城市NGP的算法模型训练。

之所以自建“扶摇”数据中心,是因为小鹏汽车发现从去年底开始,云计算费用在飙升,这时的小鹏已经开始做城市NGP的相关工作,采取自建的方式在更长的周期内是更划算的。何小鹏在发布会后对媒体称,小鹏汽车未来在数据中心方面的投入可能要高达10亿元/年。

提前买到自然是好消息,对于没买到的智驾企业而言,影响有多大?业内人士告诉集微网,“英伟达那套东西光授权费就要1000多万美金,小鹏早想换了。但关键是,找不到差不多性能的产品来替代它。

值得关注的是,英伟达日前晚间发布公告称,美国政府已授权出口、再出口和国内转让,以继续开发H100集成电路;该授权还允许公司在2023年3月1日前为A100 GPU的美国客户提供必要的出口支持;此外,美国政府授权A100和H100的订单履行和物流通过公司的香港设施进行,直至2023年9月1日。

车企当务之急:寻求替代方案

“目前其实影响有限,东西还买得到,不过大家脑袋上都悬了一把刀,找替代方案已经是当务之急了。”黑芝麻智能杨宇欣告诉集微网,即使有10%可能断供,国内企业也要做100%的准备。

对中国出口GPU的限制,显然英伟达也急了。英伟达在近期一份文件中警告说,H100和A100对中国的出口受限,可能会影响其本财季对中国4亿美元的潜在销售。英伟达CEO黄仁勋在内部邮件指出,公司将立即与中国客户协商,将寻找最佳替代品以配合他们的需求,或寻求其他技术许可。

不过,美国商务部扬言,未来会进一步扩大对华半导体技术制裁。杨宇欣指出,“(对中国出口GPU的限制)这个事让车企紧张起来了,这次是训练芯片,下次可能就是自动驾驶的。未来国内车企上国产芯片肯定会加速。

针对美国的限令,其他自动驾驶公司也持有相同看法,寻求国产替代可能是接下来的出路。目前,在车用智能芯片方面,本土企业有黑芝麻智能、地平线、寒武纪等公司。

美国限令对国内相关公司带来有一定利好。近日世界人工智能大会上,寒武纪携“云边端”全线智能芯片产品及一众行业生态案例和解决方案亮相引起了投资者关注。此外,寒武纪行歌已与一汽达成战略合作,未来有望加速在国内车企中应用。

不过,目前来看,时间和投入仍是本土智能芯片企业最大的“敌人”。寒武纪方面表示,公司产品实现大批量销售尚需较长的时间周期和前期技术服务投入。

对车企而言,美国对高端GPU的限令,尤其是以“芯片性能达到A100阈值”作为制裁的分界线,无疑会让本土自动驾驶企业更加重视自动驾驶方面的供应链的安全,也激发了国内自动驾驶企业的“斗志”。何小鹏在朋友圈直言,“我们会排除万难,将明显超越友商的‘完全自动驾驶’的下一智能辅助驾驶,在明年,全国大范围真正落地。”(校对/黄仁贵)

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章