AI时代数据中心网络如何演进?华为CloudEngine给出创新方向

​“墙壁不是世界的尽头”,这是电影《进击的巨人》告诉人们世界的真相。

在网络世界里,从技术发展和演进的规律来看,不同时代所对应的产品和技术都有着鲜明的时代特征,于是就有了打破高墙释放联接潜能、颠覆常人想象的巨人——华为数据中心网络。

不同于动漫中的是,华为所颠覆的是业界对于AI时代数据中心网络的认知。

在云计算时代,不论计算、存储、网络,一切都以云化为核心目标,通过虚拟化等技术的应用,将资源池化,进而实现资源的自由调配。

但到了AI时代,一切又变了,数据中心的使命正在从聚焦业务快速发放向聚焦数据高效处理进行转变,计算、存储、网络等这些IT基础设施的核心组成部分,正在融入更多的AI元素。

计算和存储变革提升AI运行效率,网络作为数据连接的生命线,如何引领数据中心网络迈入AI时代?

在广州举行的“AI时代数据中心网络变革研讨沙龙”上,在场的客户、生态伙伴一起见证了华为CloudEngine构筑的首个智能无损数据中心网络AI Fabric,因其具备零丢包、低时延、高吞吐的网络性能,被视为AI时代网络通信演进的方向。

AI时代 数据中心的网络进化

说到人工智能普及的关键,业界通常会给出三个要素:算力、算法和数据。而数据中心作为人工智能的“孵化工厂”,如何及时顺应AI发展的需要,实现转型升级就变得至关重要。

在过去几年,数据中心的发展刚刚经历了向云计算的转型;但在云化升级的过程中,数据中心的存储、计算、网络等资源只是在更大程度上实现了共享和按需分配,这还只是达成人工智能的基础而已。

华为GIV预测,2025年新增的数据量将达到180ZB。然而 数据本身不是目的,从中提取出来的知识和智慧才是永恒的价值。

但是由于这些数据中非结构化数据(比如原始采集的语音、视频、 图片等未加工数据)比例持续提高,未来将达到95%以上,当前大数据分析处理方法束手无策,如采用人工处理,则由于数据量巨大 远超全人类的处理能力。

而基于机器运算进行深度学习的AI算法,可以完成海量无效数据的筛选和有用信息的自动重组,从而给人们提供更加高效的决策建议和更加智慧化的行为指引。

数据快速增长给数据中心带来的挑战只是AI时代的特征之一,如今,万物互联的智能世界正加速到来,数据中心已经成为5G、人工智能等新型基础设施的核心,所面临的挑战也日渐显现。

以往数据中心可能只是一个业务支撑中心,AI时代的数据中心会变成价值创造的中心,向聚焦数据高效处理进行转变,这意味着计算、存储、网络深度融合,从网络层面来说,面对暴涨的的数字洪流,现有100GE的网络无法支撑人工定位网络问题需数小时,传统以太网丢包率0.1%,AI算力只能发挥50%。

CloudEngine系列 创造AI时代速度新高度

为此,华为CloudEngine率先将AI技术引进数据中心,构建统一融合的网络架构,引领数据中心网络从云时代迈入AI时代。

智能无损 CloudEngine重构数据中心网络

数据中心内部有三类典型的业务:高性能计算业务(HPC),存储业务和一般业务,每类业务对于网络有不同的诉求。比如HPC业务多节点进程间通信,对于时延要求非常高;而存储业务对可靠性诉求非常,要求网络绝对的0丢包。

这三类业务以往是通过三张不同的网络承载业务:Infiniband网络提供低时延的网络IPC通信, FC网络提供高可靠0丢包的存储网络,而传统的以太网承载一般的业务。

从网络结构结构来看,传统的网络设备在多打一的通信场景,非常容易产生丢包。华为CloudEngine构建智能无损数据中心网络AI Fabric可以很好解决这些问题:

一是三网融合,通过智能RoCE网卡实现计算、网络、存储全融合。

二是零丢包,加速RDMA通信,通过独有的AI芯片和创新算法,可以使得以太网络同时满足低成本,零丢包和低时延的诉求。

三是大带宽,华为CloudEngine 16800 支持400GE组网,满足AI时代5倍流量增长需求。

CloudEngine 16800 全家福

以业界最高性能的华为CloudEngine 16800数据中心交换机为例,其搭载了高能效AI芯片,借助其深度学习训练能力,承载独创的iLossless智能无损交换算法,为以太网赋予了无丢包机制,并实现流量模型的自适应自优化,同时拥有业界最高密度单槽位48个400GE线卡,从而在零丢包基础上获得更低时延和更高吞吐的网络性能。

这样一来,CloudEngine 16800不仅克服了传统以太网丢包导致的算力损失,还将AI数据算力从50%提升到100%,数据存储IOPS性能提升30%。

从目前看来,人工智能还未到大规模普及应用阶段,提前进行数据中心的AI转型似乎有些早。但依照技术发展的脉络来看,硬件基础设施的布局,满足未来AI时代的发展需求非常关键。

从国际权威测试机构Tolly Group的对比测试结果表明,在AI时代数据中心的高性能计算(HPC)、人工智能/机器学习(AI/ML)和分布式存储三种典型应用场景中,基于CloudEngine数据中心交换机的AI Fabric方案相比业界其他主流厂商的组网方案,性能全面领先,平均高出30%左右。

可以说,把握未来数据中心网络的趋势,华为正在加速企业AI业务的商用进程。

应用加速 AI技术落地的新利器

自2012年进入数据中心网络市场以来,华为已经服务于全球7800+个用户,这些用户广泛分布在全球各地,并来自互联网、金融、政府、制造、能源、大企业等多个行业。

从云时代到AI时代,华为CloudEngine 数据中心交换机在多个行业场景中的落地。

而和我们日常息息相关的是城市的交通,我们会发现有些红绿灯设置并不智能,但在深圳,全市的红绿灯关键通过城市智慧大脑智能调节,可以实现每一个红绿灯可以感知路况,这个智能交通平台使得整个城市通行率提升18%。

另一个场景是企业在计算网络、存储网络和数据网络逐渐融过程中,业务一旦发生故障,靠传统人工排查的运维手段定位故障需要数个小时。

比如在某银行进行故障演练中,一个网络问题平均需要96分钟才能完成故障定位。华为CloudEngine 数据中心交换机通过提升“网络边缘”的设备级智能化水平,让交换机具备本地推理和实时快速决策能力;再结合集中的FabricInsight智能网络分析器,可实现故障识别从分钟级到秒级、故障自动定位从小时级到分钟级,为客户节约 40%的OPEX。

站在网络创新的最前沿,华为加速网络变革进程,通过将人工智能技术注入到网络产品与及解决方案中,构筑一个高性能、高效率的智能网络,这对于致力于推动自身实现数字化转型的企业来说,无疑开启了一个加速AI应用、用AI推动企业创新的大门。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();