服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

特斯拉的下一代AI芯片:存算一体

日期: 来源:佐思汽车研究收集编辑:周彦武



ChatGPT的火爆预示了自动驾驶的方向:大模型(至少超过100亿个参数)和高算力(至少1000TOPS@FP16)。ChatGPT完美展示了大模型的优势,也让英伟达欣喜若狂,英伟达、AMD和英特尔是最大受益者(英伟达最顶级的DGX-H100中的CPU是英特尔的W3495X,国内售价高达每片8万人民币),还有几乎垄断高端服务器市场的中国台湾企业广达和英业达,科技巨头每年需要花费数百亿乃至上千亿美元购买新的服务器来处理越来越大的AI模型,并且会持续数十年。

高算力让存储墙愈加明显,存储系统的成本也持续攀升,AI芯片价格越来越高,未来10万美元甚至百万美元级AI芯片也极有可能。要完美解决存储墙问题是不可能的,折中的办法是存算一体。这虽然无法解决芯片成本趋高的问题,但是可以解决1000TOPS算力的问题。

根据存储与计算的距离远近,将广义存算一体的技术方案分为三大类,分别是近存计算 (Processing Near Memory,PNM)、存内处理(Processing ln Memory,PIM) 和存内计算(Computing in Memory, CIM)。其中,存内计算即狭义的存算一体。

存内计算面临的最大挑战是内存和高性能计算都是高度集中的行业,巨头们出于利润的考量,不会允许革命性的存内计算颠覆其所属的垄断行业。内存行业,美光、三星和SK Hynix在高性能存储领域市占率达100%。高性能计算领域,英特尔、AMD和英伟达的市场占有率也接近100%。台积电和三星联合垄断了高性能芯片代工领域。7纳米以下晶圆厂产能是最具话语权的武器,没有这个,高性能计算便是空中楼阁。

PNM已经非常常见,即HBM与CPU一体,所有高性能计算芯片都是如此,采用HBM堆叠,2.5D封装,硅中介层(Interposer)内联在基板上。也可以反推,没有采用HBM就不是高性能计算芯片。特斯拉二代FSD已经用上了GDDR6,下一代基本可以肯定是HBM3了。

PIM则是再下一阶段热点

图片来源:Planet


PIM已经有商业化的实例,最早的实例是Xilinx的Alveo U280
图片来源:Planet

PIM可以大幅度降低存取功耗

图片来源:Planet


图片来源:三星


AMD收购Xilinx,其中最看中的就是PIM堆叠技术,AMD后来将其用在Instinct MI100/MI250/MI150/MI210系列GPU上,这也是美国商务部禁止向中国出售的芯片。MI100的性能能够超越英伟达的上一代旗舰A100,功耗较A100降低约25%,价格也低于A100约30%。MI250与英伟达新旗舰H100持平,在FP32和FP64上,MI250更强;在FP16上,H100远超MI250。 

PIM的主角还是三星,配角是AMD,三星Aquabolt-XL HBM2-PIM是目前唯一PIM内存。


Aquabolt-XL HBM2-PIM架构

图片来源:三星


PIM非常简单,就是用硅通孔(Through Silicon Via, TSV)技术将计算单元塞进内存上下BANK之间。TSV技术人类2010年就掌握了,只不过迄今还不算特别成熟,价格还是有点高。

图片来源:三星


计算单元很简单,一个FP16矩阵乘法,一个FP16矩阵加法。输入命令解码和行列地址即可。


PIM运作模式

图片来源:三星


PIM的软件栈

图片来源:三星


在2023CES消费电子展上,AMD推出了MI300,PIM似乎升级到了HBM3。


图片来源:AMD


国人一心打破美国的科技垄断,由于缺乏先进2.5D和3D封装产能和技术,中国企业对PNM和PIM完全不感兴趣,聚焦的是真正的存算一体,即存内计算。

其本质是利用不同存储介质的物理特性,对存储电路进行重新设计使其同时具备计算和存储能力,直接消除“存〞“算〞界限,使计算能效达到数量级提升的目标。在存储原位上实现计算,是真正的存算一体。存算一体理论上完美,但目前离实用至少还有10年距离。

存内计算主要包含数字和模拟两种实现方式,二者适用于不同应用场景。模拟存内计算能效高,但误差较大,适用于低精度、低功耗计算场景,如端侧可穿戴设备等。模拟存内计算还涉及复杂的模数转换器(ADC)、数模转换器(DAC)、跨阻放大器(TIA) 等模块。ADC和DAC领域需要几十年经验长期摸索,全球精通ADC和DAC的仅有ADI、德州仪器和NXP三家,其中ADI最强,正是牵涉大量模拟部分,存内计算无法使用EDA工具,导致芯片开发成本高、周期长、规模小、算力低。

一直以来,主流的存内计算大多采用模拟计算实现,近两年数字存内计算的研究热度也有所提升。模拟存内计算主要基于物理定律(欧姆定律和基尔霍夫定律),在存算阵列上实现乘加运算。数字存内计算通过在存储阵列内部加入逻辑计算电路,如与门和加法器等,使数字存内计算阵列具备存储及计算能力。数字存内计算精度高,但是其存储单元只能存储单比特数据,而目前主流人工智能训练是32或64比特数据,这严重限制了其应用范围,并且数字存内计算需增加加法树逻辑电路,很大程度上限制了面积及能效优势。也就是目前存内计算在高算力领域没有容身之地的原因。

存内计算最重要的部分就是存储器件本身,算法之类的软件部分几乎可以忽略。目前存储器主要有易失性存储器和非易失存储器件。易失性存储器在设备掉电之后数据丢失,如SRAM等。非易失性存储器在设备掉电后数据可保持不变,如NOR Flash、可变电阻随机存储器 (Resistive Random Access Memory, RRAM或ReRAM)、磁性随机存储器(Magnetoresistive Random Access Memory, MRAM)、相变存储器 (Phase Change Memory, PCM)等。中国企业或机构主要研究的是铁电晶体管FeFET。传统的SRAM、DRAM、NAND被三星、美光和SK Hynix垄断,因此基于传统存储的存内计算无论如何都无法对抗这三大巨头,大部分机构或企业都选择另辟蹊径。


几种新兴存储器的技术对比


需要指出,目前存储器制造也需要EUV光刻机了,而EUV光刻机被ASML垄断,又听命于美国政府。通常认为,DRAM的天花板是10nm。其原因是在传统1T1C架构下,单位元件面积不断减小,如何保证电容能够存储足够的电荷、防止相邻存储单元之间的耦合,是DRAM推进到10nm以下的无解难题,而EUV是用来做7nm以下的,DRAM目前主流是14纳米。14纳米理论上完全可以用DUV来完成,不需要EUV。

但实际情况并非如此,三星电子的1Znm节点DRAM量产结果表明,相比于DUV浸没式光学光刻机,EUV光刻机极大简化了制造流程,不仅可以大幅度提高光刻分辨率和DRAM性能,而且可以减少所使用的掩模数量,从而减少流程步骤的数量,减少缺陷、提高存储密度,并大幅降低DRAM生产成本,缩短生产周期。也就是说,即使EUV掩模费用(达数百万美元)远高于DUV掩模费用,使用EUV光刻机量产DRAM也具有更高的性价比。三星电子和SK海力士公司将EUV光刻机引入1Znm节点DRAM的量产进展顺利,并一路高歌到第五代1β节点,令DRAM三巨头中最为保守的美光公司很无奈。美光一度宣称自己用DUV也做到了11纳米,然而进入2023年后的DDR5时代,韩国双雄再一次依靠EUV光刻机碾压了美光。美光在DDR5方面严重落后韩国双雄。

全球智能汽车领域,特斯拉是第一个用上GDDR6的企业,特斯拉也很可能第一个用上HBM2或HBM3,当然代价是芯片成本超过1000美元以上,不过以特斯拉的溢价能力,消费者愿意为高价买单。要想超越特斯拉,不如一步到位,直接上HBM3。当然了,对中国企业来说最困难的不是技术,而是供应链,晶圆级2.5D封装HBM的产能95%都在台积电手中,5%在三星手中。


声明:本文仅代表作者个人观点。


更多佐思报告


报告订购及合作咨询联系人:
张女士:13716037793(同微信)

佐研君:18600021096(同微信)

佐思2023年研究报告撰写计划

智能网联汽车产业链全景图(2023年2月版)


自主品牌主机厂自动驾驶汽车视觉(国内)高精度地图
合资品牌主机厂自动驾驶汽车视觉(国外)高精度定位
ADAS与自动驾驶Tier1-国内汽车视觉算法汽车网关
ADAS与自动驾驶Tier1-国外环视市场研究(本土篇)数据闭环研究
ADAS域控制器关键组件环视市场研究(合资篇)汽车信息安全硬件
自动驾驶与座舱域控制器红外夜视汽车信息安全软件
多域计算和区域控制器自动驾驶仿真(国外)OEM信息安全
乘用车底盘域控自动驾驶仿真(国内)无线通讯模组
域控制器排名分析激光雷达-国内篇汽车5G融合
E/E架构激光雷达-国外篇800V高压平台
L4自动驾驶激光雷达核心部件燃料电池
L2/L2+自动驾驶毫米波雷达一体化电池
乘用车摄像头季报车用超声波雷达一体化压铸
ADAS数据年报Radar拆解汽车操作系统
合资品牌车联网激光和毫米波雷达排名线控底盘
车载信息服务系统及娱乐生态专用车自动驾驶滑板底盘
自动驾驶重卡矿山自动驾驶电控悬架
商用车ADAS无人接驳车转向系统
商用车智能座舱无人配送车线控制动研究
商用车车联网无人零售车研究充换电基础设施
商用车智能底盘农机自动驾驶汽车电机控制器
汽车智能座舱港口自动驾驶混合动力报告
智能座舱Tier1模块化报告汽车PCB研究
座舱多屏与联屏V2X和车路协同IGBT及SiC研究
智能座舱设计路侧智能感知EV热管理系统
仪表和中控显示路侧边缘计算汽车功率电子
智能后视镜汽车eCall系统电驱动与动力域
行车记录仪汽车EDR研究汽车线束
汽车数字钥匙智能汽车个性化汽车音响
汽车UWB研究汽车多模态交互汽车座椅
HUD行业研究车载语音汽车照明
人机交互车载天线汽车镁合金压铸
车载DMSTSP厂商及产品电装新四化
OTA研究自动驾驶法规造车新势力-蔚来
汽车云服务研究自动驾驶标准和认证蔚来ET5/ET7智能化功能拆解
汽车功能安全智能网联测试基地造车新势力-小鹏
AUTOSAR研究PBV及汽车机器人小鹏G9功能拆解
软件定义汽车飞行汽车造车新势力-理想
软件供应商行泊一体研究理想L8/L9功能拆解
乘用车T-Box智慧停车研究自动驾驶芯片
商用车T-Box汽车分时租赁座舱SOC
T-Box排名分析共享出行及自动驾驶汽车VCU研究
车型供应商调研车企数字化转型汽车MCU研究
大疆前视双目与图达通激光雷达拆解自动驾驶融合算法传感器芯片
蔚来丰田长城车机和座舱域控拆解AI大模型及自动驾驶智算中心车载存储芯片
智能表面汽车CIS研究电源管理芯片

佐思研究月报
 ADAS/智能汽车月报 | 汽车座舱电子月报 | 汽车视觉和汽车雷达月报 | 电池、电机、电控月报 | 车载信息系统月报 | 乘用车ACC数据月报 | 前视数据月报 | HUD月报 | AEB月报 | APA数据月报 | LKS数据月报 | 前雷达数据月报

相关阅读

  • 定价很关键!中期改款P7首发亮相

  • 温馨提示:点击上方蓝字关注“汽车行业关注”,或者添加微信公众号:autoWechat,每日收获最新最快最热门的精彩汽车资讯。如果您有好的原创文章或者独家爆料,请发邮箱mail@autochat.
  • 危机四伏!恒大新能源贵州公司欠费百万成老赖

  • 温馨提示:点击上方蓝字关注“汽车行业关注”,或者添加微信公众号:autoWechat,每日收获最新最快最热门的精彩汽车资讯。如果您有好的原创文章或者独家爆料,请发邮箱mail@autochat.
  • 起死回生!某新势力车企官宣:全力复工复产

  • 温馨提示:点击上方蓝字关注“汽车行业关注”,或者添加微信公众号:autoWechat,每日收获最新最快最热门的精彩汽车资讯。如果您有好的原创文章或者独家爆料,请发邮箱mail@autochat.
  • 人脸识别需在车外半跪操作?知名车企回应

  • 近日,有小鹏汽车用户吐槽:自己的车机更新了个APP,下载完需要人脸认证。但车机所调用的识别摄像头是车辆用于全景影像的前置摄像头(位于正面车牌底部),需要下车半跪在地上才能进行
  • 联想投资智能汽车安全公司“木卫四”,持股7.32%

  • 科技边角料获悉木卫四(北京)科技有限公司日前发生工商变更,注册资本由125万增至1000万,股东新增联想关联企业中小企业发展基金联想(天津)合伙企业、苏州元起网安一期创业投资合伙
  • 易车研究院:2023吉利汽车市场竞争力分析报告

  • 《侠说》:新电商,商业智能,房产/金融需要下载报告的朋友,可扫下方二维码付费成为会员,侠说智库已含2.5万+份报告,5000+会员,下载不限制,基本保存日更新。文末加微可免费入群交流~➤~

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 特斯拉的下一代AI芯片:存算一体

  • ChatGPT的火爆预示了自动驾驶的方向:大模型(至少超过100亿个参数)和高算力(至少1000TOPS@FP16)。ChatGPT完美展示了大模型的优势,也让英伟达欣喜若狂,英伟达、AMD和英特尔是最大受
  • 今天,致敬军营花木兰!

  • 有一种花绽放在军营烈日灼伤下不枯萎寒风呼啸中不凋零生于温室里却扎根在山沟中这种花就是军中绿花她们的名字叫女兵远离城市喧嚣告别花前月下终日常伴她们的是望不尽的绿树
  • 河南原阳 踏查宣传在行动 禁种铲毒不停歇

  • 春天来了万物复苏又到了禁种铲毒的季节在这草木萌芽的时候有些特殊的植物也悄悄“蒲头”一旦落入坏人之手将会变成可怕的毒品01什么是毒品原植物毒品原植物是指用来提炼、加