通用计算机的时代落幕了,专用处理器会兴起吗?

摩尔定律为计算机业一段非凡的增长与稳定时期提供了担保。晶体管密度以可预测的节奏翻番,这个结论不仅推动力处理器性能50年的增长,而且还带动了通用计算机模型的崛起。然而,根据MIT和亚琛大学两位研究人员的研究,这一切都即将走向终结。

Neil Thompson是MIT计算机科学与AI实验室的研究科学家,同时是哈佛大学的客座教授;Svenja Spanuth则是亚琛工业大学的研究生。两人在一篇论文中提出,摩尔定律走向瓦解,以及像深度学习和加密数字货币开采这类的新应用,正在推动计算机业从通用微处理器向偏好专用微处理器的模式发展。他们提出:“通用计算机芯片的崛起是令人瞩目的。所以,其衰落亦然。”

正如他们指出那样,通用计算其实并不是一直都是惯例。在超级计算的早年,像克雷这样的公司生产的向量架构的定制化机器统治了HPC业。这种版本的机器至今仍然存在,NEC就造有这种向量机。但由于过去几十年摩尔定律推动了晶体管性价比的飞速改进,这股经济力量已经极大地令通用处理器受益。

这主要是因为定制芯片开发和制造的成本达到了3000万美元到8000万美元之间。所以即便用户对高性能微处理器的需求很大,但随着通用芯片晶体管缩小抵消了定制化解决方案当初带来的性能改进,采用特殊架构的好处也会消失。与此同时,晶体管缩小带来的成本则可以为数百万晶体管共同摊销。

但是摩尔定律促进的计算经济性正在改变。近年来,随着底层半导体材料的物理限制开始发威,缩小晶体管的代价已经变得昂贵了许多。作者指出,在过去25年的时间里,建设技术领先的晶圆厂的成本每年都已11%的速度在增长。2017年,半导体工业协会估计建设一家新的晶圆厂的花销高达70亿美元。着不仅推高了芯片制造商的固定成本,将把半导体制造商的数量从2002年的25家削减到了今天的4家:英特尔、台积电、三星以及GlobalFoundries。

该团队还聚焦了一份美国劳工部的报告,这份报告试图对微处理器的单位性价比进行比较。按照这一指标,美国劳工部认定这种性价比改进已经从2000-2004的48%/年下降到2004-2008的29%,乃至于2008-2013的8%。

这已经从根本上改变了缩小晶体管的成本效益。正如作者指出那样,因为建立和运营新的晶圆厂的开支逐渐升高,英特尔的固定成本以及可能跟超过了可变成本,这是有史以来第一次。甚至更令人不安的是,像三星和高通这样的公司现在也认为采用最新工艺节点生产晶体管的成本也在上涨,这进一步令追求更小晶圆的愿望受挫。GlobalFoundries’最近决定放弃7纳米技术背后也许正是基于这种想法。

问题还不仅仅是摩尔定律的退化。专用处理器的另一个驱动力是一批通用计算无法驾驭的新型应用。首先,像移动设备和物联网这样的平台对能效和成本的要求是非常高的,而且部署的规模又非常庞大,使得即便摩尔定律还没有失效时定制化芯片也成为了必需。规模较低的应用,比如军事和航空硬件,其要求甚至还要苛刻,这些对特殊用途设计也是有益的。但作者认为真正的分水岭时刻是业界受到深度学习促进的时候,这种应用类型几乎遍布了所有的计算环境——移动、桌面、嵌入式、云以及超级计算。

深度学习及其偏好的硬件平台,GPU,代表着计算如何沿着通用走向专用处理器发展的最明显的例子。鉴于其并行数据处理能力要比CPU高效得多,可以被视为半专用的计算架构的GPU,已经变成了训练深度神经网络事实上的平台。作者指出,尽管GPU也可以用来加速科学与工程应用,但只有深度学习才是高使用量的应用,这会让进一步专用化成为可能。当然,其实GPU本来在桌面游戏就已经有了大量应用,这是GPU设计的初衷。

不过对于深度学习来说,GPU也许只能算是入门毒品。英特尔、富士通以及十多家初创企业的深度学习芯片都在蓄势待发。Google自己的Tensor Processing Unit(TPU)就是专门用来训练和使用神经网络的,现在已经经过了第三次迭代。作者写道:“开放定制化处理器对Google来说代价非常高昂,专家估计固定成本达上千万美元。尽管如此,其好处也一样巨大——他们宣称获得的性能改进相当于7年的摩尔定律发展——而且避免的基础设施成本也值回来了。”

Thompson和Spanuth还指出,专用处理器正日益为超级计算所使用。他们引用了2018年11月的一项TOP500排名,在这份排名中专用处理器(主要是英伟达的GPU)而不是CPU首次是绝大多数的性能增加的原因。作者还对该排名进行了一项回归分析,发现发现有准用处理器的超级计算机“对计算量的改进使得其每瓦特执行的操作速度要5倍于那些只使用通用处理器的,而且这一结果在统计上高度显著。”

Thompson和Spanuth提供了一份数学模型来确定专用化的成本效益,里面考虑到了开发定制芯片的固定成本,芯片数量、定制化带来的加速,以及处理器改进率。由于后者跟摩尔定律相关,其节奏放缓意味着考虑专用芯片变得更加现实,即便预期的加速相对而言也不是很好。

作者宣称:“因此,对于很多(但并非全部)应用来说,现在采用专用处理器经济上已经变得可行——至少是在硬件方面。看待这个的另一种方式是考虑一下2000-2004年期间,市场规模约83000个处理器的应用需要专用化提供100倍的加速才划算。而在2008-2013年期间,此类处理器只需要有2倍加速就划得来了。”

Thompson和Spanuth还考虑了应用软件针对专用处理器进行调整而引发的额外开支,他们测算为每行11美元。这多少令模型有点复杂化,因为你得考虑代码库的规模,而这个未必总是很容易就能跟踪的。他们还提出,一旦代码重新开发完成,往往就会抑制代码库重返通用平台的动向。

归根结底,正是因为摩尔定律逐渐走向消亡,使得惯常的创新、市场扩张进而引发再投资的良性循环正在被打破。随着越来越多的准用芯片开始蚕食计算业的份额,这个循环就会开始瓦解。随着更少的用户采用最新的制造节点,为晶圆厂融资变得更加困难,令进一步的技术发展放缓。这样就会导致和计算机业朝着专用领域转移。

其中一些领域,比如深度学习,凭借着自身规模以及对专用硬件的适用性,会走上快车道。然而,像数据库处理这样的领域,尽管使用也很广泛,但可能会变成一潭死水,因为这类事务型计算并不适合专用芯片。而还有些领域,比如气候建模,应用规模又太小了,尽管可以从中受益,经济上并不足以支撑定制化硬件。

作者预计,通过为较小规模社区提供不同的基础设施,提供云计算可以在一定程度上抵消这些应用差异的影响。像GPU、FPGA以及Google的TPU这样更加专用的云资源的增多,预示着有钱和没钱的之间可以在一个更为公平的竞技场竞争。

这些都不能意味着GPU甚至GPU会完蛋。尽管作者没有提到这一方面的内容,很有可能专用、半专用以及通用计算引擎会集成进同一个芯片或者处理器包里面。一些芯片制造商已经在朝则会这一方向努力了。

比方说,英伟达就吸收了Tensor Cores(英伟达自己深度学习的专用电路)进入到其Volta代的GPU里面。这么做使得英伟达可以提供一个既能服务传统超级计算仿真又能服务深度学习应用的平台。类似地,CPU也正在集成专用逻辑模块里面,为加密/解密、图形加速、信号处理以及深度学习等服务。预计这一趋势还会继续。

编译组出品。编辑:郝鹏程。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();