ChatGPT大模型计算量高速扩张,算力需求陡增。1)以ChatGPT为代表的大模型参数量、数据量高度扩张,GPT-3模型参数量高达1750亿,大模型训练需要强大算力支撑。2)当前Google每日搜索量已达到35亿,我们认为Chatgpt日活提升空间广阔,算力需求有望持续释放。3)未来多模态趋势下,更广的数据形态、更多的应用场景、更深的用户体验,亦将大幅提升支撑人工智能的算力需求,算力或迎来高速扩张时代。
华为昇腾910整数精度的算力达到640 TOPS,半精度的算力达到320 TFLOPS,可对标国际行业领先产品,其Atlas 300T训练卡主要应用场景包括运营商、互联网、金融等需要AI训练以及高性能计算的领域; 海光“深算一号”DCU内置60-64个计算单元,最多4096个运算核心,具有较强的并行计算能力和较高的能效比,现已实现规模销售; 寒武纪思元370芯片采用7nm制程工艺和chiplet技术,集成390亿个晶体管,最大算力高达256TOPS(INT8); 百度昆仑芯2代AI芯片通用计算核心算力提升2-3倍,半精度达到128 TFLOPS,可支持训练和推理; 景嘉微GPU可广泛应用于PC、服务器、图形工作站等设备,满足地理信息系统、图像匹配、信号处理、机载车载舰载显控等显示计算需求。
海光生态:海光DCU协处理器能够较好地适配NVIDIA的CUDA生态,减轻开发和迁移难度,也降低了推广压力;构建较为完善的AI工具链生态,可以最大限度利用已有的成熟AI算法和框架;CPU与GPGPU也获得产业链各环主流厂商支持,建议关注的海光信息、中科曙光等。 昇腾生态:昇腾计算产业生态基于昇腾系列处理器和基础软件,构建全栈AI计算基础设施、行业应用及服务。在软硬件体系方面,Atlas硬件、MindSpore框架以及AI开发平台构建起完备的合作体系;在整机方面,神州数码与拓维信息作为华为昇腾算力9家整机合作伙伴,在昇腾算力领域率先落子;在行业应用方面,22年北明软件加入昇腾万里伙伴计划,明确在金融、互联网、电力等领域的全方位合作意向,昇腾计算产业生态日渐完善。建议关注神州数码、拓维信息、常山北明等。
以大模型为基础,参数量、数据量高度扩张,算力需求陡增。在大模型的框架下,每一代GPT模型的参数量均高速扩张;同时,预训练的数据量需求亦快速提升。我们认为,ChatGPT的快速渗透、落地应用,也将大幅提振算力需求。
英伟达A100:根据OneFlow报道,目前,NVIDIA A100是AWS最具成本效益的GPU选择。 英伟达DGX A100服务器:单机搭载8片A100 GPU,AI算力性能约为5 PetaFLOP/s,单机最大功率约为6.5kw,售价约为19.9万美元/台。
每日咨询量:根据Similarweb数据,截至2023年1月底,chat.openai.com网站(即ChatGPT官网)在2023/1/27-2023/2/3这一周吸引的每日访客数量高达2500万。假设以目前的稳定状态,每日每用户提问约10个问题,则每日约有2.5亿次咨询量。
A100运行小时:假设每个问题平均30字,单个词在A100 GPU上约消耗350ms,则一天共需消耗729,167个A100 GPU运行小时。
A100需求量:对应每天需要729,167/24=30,382片英伟达A100 GPU同时计算,才可满足当前ChatGPT的访问量。
初始算力投入:以前述英伟达DGX A100为基础,需要30,382/8=3,798台服务器,对应3,798/7=542个机柜。则,为满足ChatGPT当前千万级用户的咨询量,初始算力投入成本约为542*140=7.59亿美元。
每月电费:用电量而言,542*45.5kw*24h=591,864kwh/日。参考Hashrate Index统计,我们假设美国平均工业电价约为0.08美元/kwh。则,每日电费约为591,864*0.08=4.7万美元/日。
每个token的训练成本通常约为6N(而推理成本约为2N),其中N是LLM的参数数量; 假设在训练过程中,模型的FLOPS利用率为46.2%,与在TPU v4芯片上进行训练的PaLM模型(拥有5400亿参数)一致。
根据OneFlow估算,GPT-3训练一次的成本约为139.8万美元;对于一些更大的LLM模型(如拥有2800亿参数的Gopher和拥有5400亿参数的PaLM),采用同样的计算公式,可得出,训练成本介于200万美元至1200万美元之间。
华为昇腾(训练+推理):1)推理卡:昇腾310芯片为华为首款全栈全场景AI芯片,功耗仅为8W,在典型配置下可以输出整数精度(INT8)达到16 TOPS,半精度(FP16)算力达到8 TOPS,其Atlas 300推理卡被广泛应用于智慧城市、智慧交通、智慧金融等场景。2)训练卡:昇腾910功耗310W,整数精度(INT8)的算力达到640 TOPS,半精度(FP16)的算力达到320 TFLOPS,可对标国际行业领先产品,其Atlas 300T训练卡主要应用场景包括运营商、互联网、金融等需要AI训练以及高性能计算的领域。
海光信息(训练):公司主要产品包括通用处理器(CPU)和海光协处理器(DCU)。海光DCU对应海光8000系列,为海光自行研发设计的AI训练芯片。公司于2018年10月启动了“深算一号”的产品设计,现已实现规模销售。该芯片内置60-64个计算单元,最多4096个运算核心,具有较强的并行计算能力和较高的能效比,适用于向量计算和矩阵计算等计算密集型应用。海光DCU兼容“类CUDA”(ROCm)的环境,软硬件生态丰富,可广泛应用于大数据处理、人工智能、商业计算等计算密集类应用领域。2020年1月,公司启动了第二代DCU“深算二号”的产品研发工作。
寒武纪(训练+推理):1)训推一体:思元370芯片是寒武纪公司推出的一款训推一体的AI芯片,采用7nm制程工艺和chiplet技术,集成390亿个晶体管,最大算力高达256TOPS(INT8),是上一代产品思元270算力的2倍,内存带宽的3倍。2)推理卡:寒武纪的思元270是一款推理芯片,可以处理非稀疏的AI模型,峰值性能达到128TOPS(INT8)。思元270还支持包括INT4和INT16的多种精度运算,以及浮点和混合精度运算。它适用于多种人工智能应用,包括视觉、语音、自然语言处理和机器学习。此外,思元290芯片是寒武纪的首款AI训练芯片,集成460亿个晶体管,HBM2内存则提供了AI训练中所需的高内存带宽,vMLU技术则帮助客户实现了云端虚拟化及资源隔离。
百度昆仑芯(训练+推理):1)推理卡:昆仑芯一代和二代AI芯片分别名为K系列和R系列。其中,昆仑芯1代AI芯片为云端推理芯片,支持通用AI算法。该芯片算力强大,整数精度(INT8)达到256 TOPS,半精度(FP16)达到64 TFLOPS,可用于云数据中心和智能边缘,目前已在百度搜索引擎、小度等业务中部署数万片,赋能互联网、工业制造、智慧金融、智慧交通等领域。2)训推一体:相比1代产品,昆仑芯2代AI芯片通用计算核心算力提升2-3倍,半精度(FP16)达到128 TFLOPS,可支持训练和推理,为数据中心的高性能计算提供强劲AI算力,支持虚拟化、芯片间互联和视频编解码。
景嘉微(推理):景嘉微是国产高性能GPU领域的领军企业。公司从2014年开始研发国内首款高可靠、低功耗GPU芯片JM5400,到2018年研制成功第二代高可靠、高性能GPU JM7200并得到市场广泛应用,再到2021年底完成第三代产品JH920的迭代升级。JH920是景嘉微的第三代高性能GPU,性能相比前两代有了大幅度提升,主要应用于中高端图形显示、通用计算、嵌入式等领域。JH920全面支持国产CPU、国产操作系统和国产固件,可广泛应用于PC、服务器、图形工作站等设备,满足地理信息系统、图像匹配、信号处理、机载车载舰载显控等显示计算需求。
3.1软件强化GPU竞争壁垒,完善生态成为发展关键
3.2海光生态:兼容国际主流计算生态,下游应用丰富
中科曙光:截止至2022年3季报,中科曙光持有海光信息27.96%股份。中科曙光为国产服务器解决方案龙头企业,其服务器解决方案成熟,助力海光拓展行业市场。
其他OEM客户支持:海光产品已经获得新华三、联想等众多OEM客户支持,形成全面完备的整机实例,推进后续客户对公司产品的购买。
支持主流BIOS:目前公司产品支持主流BIOS厂商,如百敖、昆仑、insyde等。
2020年4月,公司成立“海光产业生态合作组织”,简称“光合组织”,旨在围绕国内自主通用计算平台,联合产业链上下游企业、高校、科研院所、行业企业等相关创新力量,实现协同技术攻关,共同打造安全、好用、开放的产品与解决方案,并开展测试认证、技术培训、方案孵化、应用示范、推广交流等系列活动,促进合作组织成员的共同发展,共建包容、繁荣的信息技术生态系统。 光合组织推进成果颇丰。目前,光合组织已有成员1000+,适配认证厂商500+,产品适配认证1000+,成立区域分会10个,适配中心15个。
3.2昇腾生态:搭建全栈AI计算,生态伙伴深入
神州数码:2021年作为华为昇腾算力9家整机合作伙伴之一,公司在昇腾算力领域率先落子。根据公司官方公众号,神州鲲泰KunTai A722推理型服务器以“鲲鹏+昇腾”为核心,在2U紧凑空间内,可提供128个处理核心的算力,同时最大可支持8张华为Atlas 300推理卡,提供256GB推理缓存,以及最大 704 TOPS INT8 的AI算力。 拓维信息:2021年公司成为昇腾首批整机合作伙伴,2022年4月兆瀚推理服务器RA2300-A系列是基于昇腾处理器开发的AI推理服务器,完成与华为Atlas 300I Pro推理卡和Atlas 300V Pro视频解析卡的兼容性测试,最多可搭载8张Atlas 300V Pro 视频解析卡或Atlas 300I Pro 推理卡。
异构计算架构CANN以及对应的驱动、运行时、加速库、编译器、调试调优工具、开发工具链MindStudio和各种运维管理工具等,开放给广大的开发者和客户; AI计算框架,包括开源的MindSpore,以及各种业界流行的框架,作为生态的有机组成部分:MindSpore合作伙伴包括鹏城实验室、深圳湾实验室、北京大学、清华大学、哈工大、斗鱼等。
AI开发平台ModelArts、HiAI Service等,合作伙伴包括第四范式、依瞳科技、中科弘云等。
常山北明:根据全资子公司北明软件官方公众号,2021年北明软件与南京江北新区正式签约,助力华为与江北新区打造南京昇腾人工智能计算中心;2022年4月,北明软件正式加入昇腾万里伙伴计划,成为昇腾应用软件伙伴,明确在金融、互联网、电力等领域的全方位合作意向。在华为的引领与华为生态伙伴的协同下,昇腾行业生态日渐完善。
AI技术迭代不及预期风险:若AI技术迭代不及预期,NLP技术理解人类意图水平未能取得突破,则对产业链相关公司会造成一定不利影响。
具体分析详见2023年3月5日发布的报告《国产AI算力生态一览》
分析师 刘高畅 分析师执业编号S0680518090001
研究助理 孙行臻 分析师执业编号S0680122020018
特别声明:《证券期货投资者适当性管理办法》于2017年7月1日起正式实施。通过微信形式制作的本资料仅面向国盛证券客户中的专业投资者。请勿对本资料进行任何形式的转发。若您非国盛证券客户中的专业投资者,为保证服务质量、控制投资风险,请取消关注,请勿订阅、接受或使用本资料中的任何信息。因本订阅号难以设置访问权限,若给您造成不便,烦请谅解!感谢您给予的理解和配合。
重要声明:本订阅号是国盛证券计算机团队设立的。本订阅号不是国盛计算机团队研究报告的发布平台。本订阅号所载的信息仅面向专业投资机构,仅供在新媒体背景下研究观点的及时交流。本订阅号所载的信息均摘编自国盛证券研究所已经发布的研究报告或者系对已发布报告的后续解读,若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。本资料仅代表报告发布当日的判断,相关的分析意见及推测可在不发出通知的情形下做出更改,读者参考时还须及时跟踪后续最新的研究进展。
本资料不构成对具体证券在具体价位、具体时点、具体市场表现的判断或投资建议,不能够等同于指导具体投资的操作性意见,普通的个人投资者若使用本资料,有可能会因缺乏解读服务而对报告中的关键假设、评级、目标价等内容产生理解上的歧义,进而造成投资损失。因此个人投资者还须寻求专业投资顾问的指导。本资料仅供参考之用,接收人不应单纯依靠本资料的信息而取代自身的独立判断,应自主作出投资决策并自行承担投资风险。
版权所有,未经许可禁止转载或传播。