服务粉丝

我们一直在努力
当前位置:首页 > 军事 >

免费可商用开源GPT模型问世,50G权重直接下载,性能不输GPT-3

日期: 来源:量子位收集编辑:量子位

萧箫 发自 凹非寺量子位 | 公众号 QbitAI

真·开源GPT模型,终于来了。

参数量级130亿,大小比肩最近Meta开放的LLaMA-13B,但从数据集、模型权重到计算优化训练,全部开源。

最关键的是,可商用。

没错,虽然就GPT-3而言,之前DeepMind、Meta等组织陆陆续续开源过几个模型,不过基本都是半遮半掩。

尤其最接近GPT-3的Meta OPT模型,不仅权重只开放给研究者,而且不可商用:

这意味着之前企业就算能抄作业,抄来的也没办法直接用。

现在,一家名叫Cerebras的公司开源了这一系列GPT模型,业界终于有机会追赶了。

模型性能如何?

Cerebras一共开源了7个GPT模型,参数量分别达到1.11亿、2.56亿、5.9亿、13亿、27亿、67亿和130亿。

据Cerebras公司表示,他们开放出来的模型不仅包含数据集,可用于研究也可商用,而且关键是预训练模型权重开放(从下图来看文件大小近50G)。

基于他们公开的预训练模型,大伙儿只需要用少量的数据对对模型进行微调,就能构建出效果不错的模型来。

除此之外,这次GPT模型的训练还额外考虑到了计算优化训练(Compute-Optimal Training)。

这个方法最早由DeepMind在2022年提出,名叫Chinchilla,它认为大语言模型的语料数量和模型效果之间符合一个凸曲线,因此模型参数量和训练程度成一定比例。

依据这个方法,DeepMind认为,包括GPT-3在内的超大参数LLM模型,有很多都是训练不足的。

基于此,Cerebras搞出了这一系列GPT模型,并将背后的流程进行了开源。

所以,Cerebras-GPT系列模型性能如何呢?

团队将Cerebras-GPT系列和LLaMA、GPT-3等模型的性能进行了对比。

这是包括GPT-3、Gopher、Chinchilla和LLaMA在内的其他GPT模型,在完成句子、问答等特定任务上表现的效果。

这是不同大小的Cerebras-GPT模型零次学习(0-shot)的效果:

数据对比不是特别直观,团队还将结果进行了可视化。

可以看出,在最终性能相差不大的情况下,Cerebras-GPT的训练效率要更高一些。

曾开发最大AI芯片

其实,Cerebras的“本职”是一家AI芯片公司。

Cerebras公司由Sean Lie和Andrew Feldman等人于2016年创立。

其中,Andrew Feldman曾创建微型服务器公司SeaMicro,并以3.34亿美元的价格出售给AMD。

与其他AI芯片公司不同,Cerebras开发的芯片超大,像晶圆一样(但确实是芯片):

他们当年做出来过一个名叫“晶圆级引擎”(Cerebras Wafer Scale Engine,简称WSE)的AI芯片,将逻辑运算、通讯和存储器集成到单个硅片上,一口气创下了4项世界纪录:

晶体管数量最多的运算芯片:总共包含1.2万亿个晶体管。虽然三星曾造出2万亿个晶体管的芯片,却是用于存储的eUFS。芯片面积最大:尺寸约20厘米×23厘米,总面积46,225平方毫米。面积和一块晶圆差不多。片上缓存最大:包含18GB的片上SRAM存储器。运算核心最多:包含40万个处理核心。

后来这个超大WSE又升级了二代,然后团队基于WSE-2打造出了一个名叫Cerebras CS-2的AI超算。

这次的Cerebras-GPT系列模型,就是在这个Cerebras CS-2的AI超算中训练出来的。对此这家公司表示:

虽然训练这么大体量的模型通常需要几个月时间,但我们几周就能搞定。

Cerebras还表示,虽然很多硬件公司都声称训练效果能接近英伟达GPU的水平,但他们还没看到任何一家亲自推动开源LLM的硬件公司,这势必不利于开源LLM的发展。

这波啊,这波Cerebras格局大了(手动狗头)

相关阅读

  • 美“芯片法案”条款苛刻 台积电坦言无法接受

  • 美国“芯片法案”针对在美设厂的半导体企业补贴今日(31日)开放申请。在美设厂的台湾地区芯片制造企业台积电董事长刘德音直言,该法案部分条款过于苛刻,台积电方面“无法接受”。
  • ChatGPT,颠覆刚刚开始?

  •   中国小康网 独家专稿  文|《小康》·中国小康网记者 于靖园  大洋彼岸的振翅,掀起了全球的AI巨浪。ChatGPT的付费使用人数剧增,验证了其巨大商业价值和科研价值。它的
  • 计算机ETF(512720),软件ETF(515230)异动解读

  • 周五(3月31日),A股震荡攀升,ChatGPT为首的科技股全面爆发。上证指数收涨0.36%报3272.86点,创业板指涨0.69%。市场合计成交额9537.9亿元;北向资金实际净买入16.74亿元,本周累计净买
  • 史上最大的陆地动物骨架模型,将在欧洲首展

  • 极目新闻记者 胡莉据CNN3月29日报道,陆地上最大的动物之一巴塔哥泰坦龙骨架模型将在伦敦展出,这是该骨架首次去往欧洲。2010年,巴塔哥泰坦龙骨架在阿根廷被发现。据悉,巴塔哥泰

热门文章

  • 国防与个人的关系

  • 中国人常言“兵者,国之大事,死生之地,存亡之道,不可不察也”,从古人对战争的描述以及重视程度来看,国防的重要性,显而易见。中国古代曾拥有世界上最强大的军队,无论数量,质量,武器的

最新文章

  • 100:108!

  • 4月1日晚大连理工大学vs哈尔滨工业大学“工BA”篮球交流赛在刘长春体育馆拉开序幕四月的球场上欢呼呐喊不绝于耳盘旋的助威里篮球映衬青春风华运势错杂如乱花迷眼步伐轻盈似
  • 乐享云南 | 美景·扎西红色小镇

  • 本周带大家一起乐享云南的无限风光本期分享美景——扎西红色小镇扎西红色小镇,位于云南省昭通市威信县,景区主要包括扎西会议纪念馆、扎西会议会址、扎西红军烈士陵园、扎西红