Waymo幡然悔悟,做自动驾驶必须自研芯片


Waymo早在2008年就开始投入自动驾驶,当时还属于谷歌X事业部,不过14年过去,Waymo几乎一事无成,声音也越来越小,根本的原因就是Waymo对软件算法过分重视,忽视了硬件平台。这几年英伟达、高通自动驾驶芯片的崛起与Waymo的没落形成鲜明对比。自动驾驶的软件和硬件是硬币的两面,无法分割,整套解决方案必然包括软件和硬件。单独提供软件或硬件都没有出路,因为自动驾驶软硬件配合度要求太高,很难移植。这主要是深度学习算法模型与硬件高度捆绑,两者不匹配很容易导致效率低下,硬件的利用率低到10%以下是经常遇到的。



Waymo早期是采用英特尔芯片做计算平台的,主要是基于服务器CPU至强和FPGA加速卡。


图片来源:互联网



Waymo计算平台,其中以太网交换机应该也是用FPGA搭建的,因为这么高带宽的以太网交换机现在还没有量产,几年前更不可能有了。只有FPGA能做到如此高的带宽,代价是价格很高,至少在1000美元以上。还有两个至强CPU之间应该还需要PCIe交换机。


FPGA可能是Arria 10 1150GX,目前售价大约2000美元,2013年时可能要4000美元以上。Altera的FPGA共有四大系列,分别是顶配的Stratix系列、成本与性能平衡的Arria系列、廉价的Cyclone系列、带NVM的MAX系列。Stratix系列多在近万美元以上,Arria系列大约在2000-5000美元之间,Cyclone系列多在10-20美元之间。Arria系列再细分10、V、II、GX四个系列,10系列为最新产品,于2013年推出,采用20纳米工艺,GX为第一代产品,2007年推出,采用90纳米工艺,II系列为2009年产品,采用40纳米工艺,V系列为2011年产品,采用28纳米工艺。10系列再分为带ARM内核和不带ARM内核两大类。ARM内核为双A9内核。


1150GX拥有标准FPGA的1150K个逻辑元素外,还拥有1518个硬核单精度浮点运算乘法器/加法器,3036个18*19乘法器。最终能够获得3340GMACS(等于每秒百万次的定点乘累加运算),还有1366 GFLOPS的浮点运算能力。AI算力最高是26TOPS@Int8。在2013年这个算力可以算是非常惊人的,价格当然也很惊人。


FPGA是效率最高的运算单元,FPGA之所以比CPU甚至GPU能效高,本质上是无指令、无需共享内存的体系结构带来的福利。冯氏结构中,由于执行单元(如CPU核)可能执行任意指令,就需要有指令存储器、译码器、各种指令的运算器、分支跳转处理逻辑。由于指令流的控制逻辑复杂,不可能有太多条独立的指令流,因此GPU使用SIMD(单指令流多数据流)来让多个执行单元以同样的步调处理不同的数据,CPU也支持SIMD指令。而FPGA每个逻辑单元的功能在重编程(烧写)时就已经确定,不需要指令。


FPGA中的寄存器和片上内存(BRAM)是属于各自的控制逻辑的,无需不必要的仲裁和缓存。对于通信的需求,FPGA每个逻辑单元与周围逻辑单元的连接在重编程(烧写)时就已经确定,并不需要通过共享内存来通信。FPGA实际就像是一片SRAM,它没有AI芯片难以克服的内存墙问题,有点像存内计算,但要比存内计算规模大太多了。FPGA的硬件利用率可轻松做到80%以上,因此FPGA的频率都比较低。


但FPGA的布线没有优化,有大面积的硅片资源闲置,浪费了,这导致其成本飞速上升,小规模的FPGA价格很低,一旦越过30-50万逻辑单元,价格直线飞升。


Waymo的计算平台单芯片成本就已超过4000美元,并且都是非车规的,显然这无法量产。2019年以后,Waymo的声音就慢慢沉寂,而软硬一体的高通和英伟达发展越来越顺利。


眼看英伟达和高通一飞冲天,Waymo也幡然悔悟,2021年就开始筹划与三星推出自动驾驶芯片,正式推出可能在2023年底。和英伟达、高通相比,Waymo的劣势在于英伟达和高通都是芯片巨头,两者出货量巨大,特别是高通,能够大幅度降低芯片成本。Waymo订制芯片,出货量必然是很低的,谷歌的TPU用在数据中心,成本敏感度不高,但汽车不行。同时谷歌的TPU出货量相对自动驾驶汽车还是不低的。


要做到商业化,成本是必须考虑的。Waymo找到了三星做合作伙伴,三星每年手机CPU芯片上亿,足以和高通抗衡,足以摊薄成本。三星与谷歌合作是从谷歌第一代手机芯片Tensor开始。高通的Snapdragon Ride平台目前是SA8540p+SA9000。SA8540p近似于高通手机5纳米芯片888,只不过SA8540p可能采用4大核4小核的设计,即4个Cortex-X1加4个A78。去掉了强调A55小核。高通以此还衍生出针对笔记本电脑的8cx gen3,与SA8540p非常近似,但去掉了5G modem。


能做手机SoC,就能做自动驾驶芯片,三星、苹果、联发科都可以。


图片来源:互联网



谷歌第一代Tensor芯片,用于谷歌Pixel 6系列手机上,实际就是基于三星Exynos 2100的修改版。


第一代Tensor与三星Exynos 2100对比

图片来源:互联网



在NPU方面,Exynos 2100是压倒性优势的26TOPS,谷歌是5.7TOPS。不过在实际测试中,Exynos 2100优势不明显。


图片来源:互联网



骁龙888、谷歌Tensor与Exynos 2100的NNAPI即神经网络测试跑分,谷歌Tensor优势明显。


NLP自然语言处理方面,谷歌Tensor优势非常明显。 图片来源:互联网



离线图像分类跑分测试,Tensor差距也不算大。 图片来源:互联网



Waymo的自动驾驶芯片不大可能基于第一代Tensor,因为第二代Tensor已于2022年7月底量产了。Waymo的自动驾驶芯片很有可能基于第二代Tensor,目前未有基于第二代Tensor的消息,但很显然,三星不会给谷歌做太多工作,应该就是Exynos 2200的修改版,毕竟第一代Tensor的具体型号就是Samsung Exynos Tensor GS101,从型号就能看出,这是Exynos2100的修改版。


图片来源:互联网



Waymo的自动驾驶芯片芯片应该会基于三星4纳米工艺。超大核应该还是两个Cortex-x2,而不是Exynos的1个。两个Cortex-710的中核,四个A510的小核。GPU方面估计也是基于AMD RNDA2代的GPU,足以和高通的Adreno 730一争高下。


CPU和GPU没有太多操作空间,NPU应该是谷歌擅长的。


谷歌历代TPU对比

图片来源:互联网



谷歌从2016年推出第一代TPU,2021年推出第四代,第四代TPU的算力没有公开数据,只说比第三代的两倍。第三代TPU的算力是360TOPS@Int8,那么第四代应该是720TOPS@Int8。不过TPU是针对数据中心的。针对边缘计算,谷歌还有TPU EDGE,价格非常低廉,应该不超过10美元。


谷歌没有公布TPU V4的算力,但给出了下表,用在各种算法模型上的消耗时间,完全可以超越顶级英伟达系统。


备注:这是在2021年中期测试的数据。 图片来源:互联网



Waymo的策略应该与高通一样,也是一片SoC加一片加速器。SoC基于二代Tensor也就是基于三星Exynos 2200,其内部的NPU算力至少能到30TOPS。加速器应该基于4代TPU或5代TPU做修改而来,算力估计360TOPS。这样一来,成本大大降低,应该不高于英伟达系统的成本。此外4代或5代TPU都应该委托三星而非台积电代工,台积电代工当然更好,但价格会远高于三星,且谷歌的订单数量太少,在产能紧张大客户云集的台积电那里肯定要排队等待,因此谷歌一直选弱势的三星做合作伙伴。


自谷歌开始搞自动驾驶以来,其定位就比较模糊,战略经常变化,最初似乎是想提供全套软件解决方案,然后是自己制造无人驾驶小车,再后是做无人出租车运营,现在似乎是回归最初,提供包括硬件计算平台在内的全套解决方案。主要是自动驾驶算法的门槛极低,单独的算法没多少价值,自动驾驶软件里最有价值的应该是经过人工标注的数据集,这没什么技术含量,完全靠人力和资金。如今Waymo试图和英伟达或高通竞争,显然已经晚了,Waymo的最终结局想必大家都已经能预测到。


声明:本文仅代表作者个人观点。


报告订购及合作咨询请私信小编。


佐思2022年研究报告撰写计划

智能网联汽车产业链全景图(2022年7月版)


更多佐思报告


自主品牌主机厂自动驾驶

汽车视觉(上)

高精度地图

合资品牌主机厂自动驾驶

汽车视觉(下)

高精度定位

商用车自动驾驶

汽车仿真(上)

OEM信息安全

低速自动驾驶

汽车仿真(下)

汽车网关

ADAS与自动驾驶Tier1-国内

毫米波雷达

行泊一体研究

ADAS与自动驾驶Tier1-国外

激光雷达-国外篇

红外夜视

自动驾驶与座舱域控制器

车用超声波雷达

车载语音

域控制器排名分析

Radar拆解

人机交互

激光和毫米波雷达排名

充电基础设施

汽车VCU研究

E/E架构

汽车电机控制器

800V高压平台

汽车分时租赁

混合动力报告

燃料电池

共享出行及自动驾驶

汽车PCB研究

汽车OS研究

EV热管理系统

汽车IGBT

线控底盘

汽车功率电子

汽车线束

滑板底盘

无线通讯模组

合资品牌ADAS

电控悬架

汽车5G融合

自主品牌ADAS

转向系统

合资品牌车联网

农机自动驾驶

ADAS数据年报

自主品牌车联网

港口自动驾驶

汽车MCU研究

专用车自动驾驶

飞行汽车

传感器芯片

矿山自动驾驶

汽车智能座舱

自动驾驶芯片

无人接驳车

商用车车联网

自动驾驶重卡

智能座舱Tier1

座舱多屏与联屏

智能座舱设计

商用车智能座舱

智能汽车个性化

商用车ADAS

仪表和中控显示

汽车多模态交互

座舱SOC

智能后视镜

TSP厂商及产品

汽车座椅

汽车数字钥匙

OTA研究

汽车照明

汽车UWB研究

AUTOSAR研究

汽车EDR研究

汽车云服务研究

软件定义汽车

模块化报告

L4自动驾驶

Waymo智能网联布局

造车新势力-蔚来

L2自动驾驶

HUD行业研究

车载DMS

环视市场研究(本土篇)

自动驾驶法规

V2X和车路协同

环视市场研究(合资篇)

自动驾驶标准和认证

路侧智能感知

乘用车T-Box

智能网联测试基地

路侧边缘计算

商用车T-Box

PBV及汽车机器人

汽车eCall系统

T-Box排名分析

汽车功能安全

电装新四化

乘用车摄像头季报

无人零售车研究

电驱动与动力域研究

汽车镁合金压铸

汽车音响研究

多域计算和区域控制器

智慧停车研究

线控制动研究

数据闭环研究


「佐思研究月报」

ADAS/智能汽车月报 | 汽车座舱电子月报 | 汽车视觉和汽车雷达月报 | 电池、电机、电控月报 | 车载信息系统月报 | 乘用车ACC数据月报 | 前视数据月报 | HUD月报 | AEB月报 | APA数据月报 | LKS数据月报 | 前雷达数据月报

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章