服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

重磅!OpenAI被“Open”!GPT-4可复制!

日期: 来源:清博智能收集编辑:清博智能

“OpenAI并没有魔法,他们所构建的东西是可复制的。”

——先问大模型技术团队

就在今日,被人们吐槽“不够open”的OpenAI,被业内大神扒了个底儿掉!

大神此次公开的信息包括GPT-4的架构、训练和推理的基础设施、参数量、训练数据集、token数量、运维成本、以及使用的混合专家模型(Mixture of Experts,MoE)等非常具体的参数与细节。

在这些信息中,我们可以看到OpenAI在面对不同工程背后如何进行权衡,以及在巨型模型推理时,如何跨越其中最大的瓶颈。

而这些细节的公开,无疑是给了业界一个研究和学习OpenAI技术的机会。

01

是谁在揭开GPT的秘密?

那么,这些重磅的信息是从何而来的呢?

爆料的来源是SemiAnalysis的两位名叫Dylan Patel和Gerald Wong的撰稿人。他们在文章中详细介绍了这些关于GPT-4的具体信息。

值得一提的是,身为Semi Analysis首席分析师的Dylan Patel,并不是第一次引发业界轩然大波。他此前还曾经参与了谷歌内部文件的泄漏事件。那份文件中提到,“我们没有护城河,OpenAI也没有”,引发了业界对于大公司竞争和AI安全的热烈讨论。

Semi Analysis首席分析师Dylan Patel

这次的泄露事件得到了DeepMind的首席执行官Hassabis的确认,他在接受The Verge的采访时,确认了这份由谷歌工程师泄露的文件的真实性。

这也证明了Dylan Patel具有一些特殊的信息获取渠道,这使得我们有理由相信这次关于GPT-4的爆料同样具有相当的真实性。

总的来说,这次的信息给了我们一次深入了解OpenAI最新技术的机会。我们期待看到这些信息将如何影响AI领域的发展和变革。

02

GPT-4的模型参数达1.8万亿

GPT-4,OpenAI的最新大规模语言模型,显示出一系列引人注目的特性。首先,它的规模令人震惊,模型参数达到1.8万亿,分布在120层中,相比其前任GPT-3增长了十倍以上。

先前外界猜测的GPT-4参数量

在模型构建过程中,OpenAI采用了混合专家(MoE)模型以保持成本在合理范围内。GPT-4使用了16个专家模型,每个专家模型的MLP大约有1110亿个参数。

其路由算法简洁高效,能将每个标记路由到专家模型的决策依据,并不复杂,有大约550亿个共享参数用于注意力。值得注意的是,在执行每次向前传播推断时,GPT-4只使用大约2,800亿个参数,这相比纯密集模型的1.8万亿参数更为经济。

03

数据及训练方式

在数据方面,GPT-4的训练数据达到了13万亿个token,包括文本和代码数据,以及来自ScaleAI和OpenAI内部的大量微调数据。在预训练阶段,token设为8,000,之后在微调阶段将token增加到32,000。

训练过程中,OpenAI使用了批处理的方式。批处理大小在早期逐步增大,最后达到了6,000万,这对于GPU资源的利用极具效率。

04

并行处理技术与训练成本

为了在所有的A100 GPU上实现并行,GPT-4使用了8路张量并行和15路管线并行,这都是并行处理技术的极限。这种并行策略可能涉及了ZeRo阶段1和块级FSDP技术。

训练成本是评估模型效率的重要指标,OpenAI的GPT-4的训练FLOPS大约2.15e25。模型在大约25000个A100上运行了90到100天,使用率大约为32%到36% 。由于大量的失败需要从检查点重新开始,使用率将变得极低。

如果按照每个A100每小时1美元来计算,训练成本将是6300万美元左右。

05

规模与性能的难题

尽管GPT-4在规模和性能上取得了显著的突破,但其依然面临着一些挑战。

例如,专家模型在推理中非常难以处理,因为并非在每个token生成时都使用模型的每一部分。这意味着当其他部分被使用时,剩余部分可能处于休眠状态。当为用户提供服务时,这会严重影响利用率。

同时,由于更多的专家模型在许多任务上难以泛化,且更难以达到收敛,所以OpenAI选择了较少的专家模型。

因为GPT-4需要更大的集群,所以它的推理成本是其前代产品175B参数Davinchi的3倍,实际上使用效率更低。

06

GPT-4的视觉能力:

交叉注意力与微调

在视觉能力方面,GPT-4采用了与文本编码器分开的视觉编码器,具有交叉注意力。这种架构与Flamingo相似,增加了更多的参数,并进行了约2万亿个token的微调。

OpenAI希望从头开始训练视觉模型,但由于技术不够成熟,因此决定先从文本开始,降低风险。

总结来说,GPT-4在规模、性能和复杂性方面都做出了重大的突破,但同时也带来了更大的挑战和更高的成本。这无疑将开启人工智能发展的新篇章,我们有理由对此充满期待。

(全文编译请看今日清元宇宙二条)

07

“先问”点评

清博先问大模型技术团队表示,在这份报告前,黑客George Hotz就爆料过GPT-4是由8个MoE模型组成,这次相比之下更加具体详细,也更具有指导和复现意义。

这份报告也是给了我们中国企业打了一剂强心针,OpenAI并没有魔法,他们所构建的东西是可复制的。

在报告中最吸引我的内容是OpenAI在面临大模型推理时遇到的问题和作出的抉择。

众所周知,大模型在推理时,延迟和推理成本是非常重要的权衡。我们总会希望能在延迟较低、吞吐量足够的情况下,推理成本尽可能小,因此我们从这份报告中看到OpenAI的选择,启发我们团队后续的相关工作。

值得一提的是,其实万亿级别参数的MoE模型,GPT-4并不是第一个。谷歌在2021年发布的Switch Transformers,就是价值1.6万亿的MoE模型。所以OpenAI利用MoE的做法,也是意料之中的。

对于大模型来说,最大的开销不是训练,而是之后长期的服务开销:训练是一次性的,而服务对算力的要求是无穷无尽的。

模型serving的FLOPS要低于训练时的FLOPS,MoE就是一个很显然的选择,可以保证稀疏激活。

人类的大脑也有着类似的设计:功能分区,稀疏激活。我们人去解决一个问题,也只会利用相关的知识,而不是把大脑中所有的知识都用上。

尽管MoE是一个简单明显的选择,但还有很多工作值得我们去做,改进路由算法,降低通信和计算成本,提升训练的稳定性等等。

未来,这些工作也都将是我们先问大模型努力的方向。

参考信息:

1、https://mem.ai/p/weHErOim3P2FNmTEvlMX

2、https://www.semianalysis.com/p/gpt-4-architecture-infrastructure

作者:先问大模型 西瓜 排版:骆伟玲

图片源于Q仔互联网冲浪所得,若有侵权,后台联系,Q仔滑跪删除~


相关阅读

  • 京东言犀大模型,预计8月正式上线

  • 7月13日上午,京东在2023京东全球科技探索者大会暨京东云峰会上正式发布京东言犀大模型,同时发布言犀AI开发计算平台。该平台已经启动预约注册,预计8月正式上线。京东集团技术委
  • 太酷了!西工大录取通知书可领飞机盲盒

  • 7月12日,西北工业大学本科录取通知书样式发布,录取通知书封面以“西工大蓝”为底色,校徽中的三角代表飞行器,点状圆环代表大气层,浪花代表海洋,分别体现学校的航空航天航海特色。
  • 京东成功注册“言犀”大模型商标

  • 科技边角料据悉京东日前发布言犀大模型和言犀AI开发计算平台,该平台已经启动预约注册,预计8月正式上线。天眼查App显示,北京京东叁佰陆拾度电子商务有限公司已申请注册多个“言
  • 【以案释法】租赁商铺聚众赌博被判刑

  • 2022年8月,王某租赁县城某小区商铺,12月下旬,王某将商铺改造为三间包厢,并在其中两间包厢内各放置麻将桌一张。王某召集樊某、马某、陈某等21人聚众赌博,每张麻将桌收取200元或30
  • 行业大佬访谈:新媒体的盈利模式有哪些?

  • 编者按:随着互联网的发展,各种各样的新媒体不断涌现,针对新媒体的盈利模式,著名风险投资人 Hunter Walk、Kickstarter 前 PM Ellen Chisa 和《纽约时报》CTO Nick Rockwell 对此
  • 大语言模型,救不了“网络暴民”

  • 语言可以杀人——网络时代,相信没人会否认这一点。语言攻击,是最具代表性的网络暴力之一。谩骂刚失去儿子的母亲,诋毁女孩的粉色头发,嘲笑男性的气质“太娘”,炮制莫须有的黄色谣

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 重磅!OpenAI被“Open”!GPT-4可复制!

  • “OpenAI并没有魔法,他们所构建的东西是可复制的。”——先问大模型技术团队就在今日,被人们吐槽“不够open”的OpenAI,被业内大神扒了个底儿掉!大神此次公开的信息包括GPT-4的
  • 茉酸奶新品征集价格最低68元,刺激了网友

  • 价格逼近百元的乳饮产品可以做一时的网红噱头,但复购率会降低,在市场上走不远。在喜茶、奈雪的茶等知名连锁饮品屡屡降价调整,产品价格大部分告别“3字头”之际,以大约30元一杯
  • 延吉市商务局携“两新”组织为困难群众献爱心

  • 延吉新闻网7月12日讯(记者 王晓彤)7月12日,延吉市商务局直属机关党委携延吉百货大楼股份有限公司党委开展“红七月 同心向党·践初心 使命担当”主题党日活动。  活动中,党员
  • 敕勒川草原焕新颜 生态“数智”变富民“药方”

  • 盛夏,雨雾蒙蒙的敕勒川草原,花香、草香扑面而来,翻滚着的绿色波浪和各色特色花朵勾绘出一幅壮丽的草原图景。 敕勒川草原位于内蒙古自治区呼和浩特市东北部的阴山山脉大青山南