数据已成关键经济资源,中国移动湖仓融合呼唤统一存储筑基

当前,高性能计算、大数据、人工智能、5G等新技术催生了越来越多的新应用,新兴应用激发非结构化数据快速增长。据IDC发布的相关报告显示,预计到2025年中国数据量将增长到48.6ZB,成为全球最大的数据圈。这些数据的存储,面临应用多样化、数据热度提升、数据应用合规、绿色节能等多种挑战,分布式存储凭借支持混合负载、数据融合、数据分级、安全可靠等特性,成为海量新兴数据应用的最佳数据底座。

7月14日,在主题为“新经济、新应用、新存储”的首届分布式存储产业发展论坛上, 中国移动大数据项目总监郭志伟发表了题为《数智化转型,高质量发展》的演讲。他表示,数据已经成为了关键经济资源,“数随算动”正在逐步转换成为“算随数动”,统一存储已经成为湖仓融合基础 。

数据已经成为关键经济资源

这是一个海量数据的时代,企业的数据是在持续高速增长。华为发布的《全球产业展望》预测到2025年,全球年增存储数据量将高达180ZB。。

郭志伟表示,其实我们更加关注的是现在数据价值已经被广泛认可,尤其是在国家层面,数据要素已经正式被列为了生产要素。在社会层面,移动APP的精准推荐,还有现在的疫情防控,让我们更加全面地认识了大数据、了解了大数据。此外,我们还应该注意到,现在产生的数据其实远远要大于被存储的数据,被存储的数据其实又远远大于被有效分析和使用的数据。这就引导我们去研究一个课题,就是“如何从数据到价值的创造”

现在从数据采集到数据存储,再到数据分析、数据智能,国内产业链已经基本上处于完整。价值的开发也从早期企业内部的经营分析向现在全产业链的融合性发展方向去努力。同时,新一批的科技巨头已经向数据货币化迈进。数据现在是所有新兴数字经济的核心。未来随着越来越多的价值链被数字链接,以数据为中心的商业模式也会越来越多。数据已经成为关键经济资源,对数据的控制在战略上非常重要。

“数随算动”逐步转换为“算随数动”

当前,各行各业都在进行数字化的转型,信息通信业凭借自己独特的优势现在处于相对领先的位置。这里有几方面的原因:第一是随着基础的通信、服务,包括智能终端的普及,运营商的服务基本上做到了用户层面的全覆盖;第二是现在用户都要进实名制认证,确保了数据的全面和真实;第三是通过网络层面的采集,这样的数据在时空连续性上非常高;最后就是数据已经深入到了个人的生活、娱乐、智能家居、健康医疗等垂直行业,甚至现在很多的内容支付等领域,应用场景非常丰富。“以数据为核心,传统‘数随算动’的架构会逐步转换成为‘算随数动’。”

中国移动创新性地构建了大数据的分布式协同计算平台,通过计算的统一来实现数据的统一。对内,实现了统一的底座,高效赋能。预计在明年年底,中国移动会建成九大区域的协同的大数据分布式协同计算平台,具备全网的逻辑统一、分布计算的能力,这其中就带来了分布式存储的需求。同时中国移动会依托分布式协同计算平台,完成全网数据全量的接入和处理。全网的大数据运营也会统一入驻,。

中国移动要响应国家战略,坚持自主创新,特别是要加强业务、数据、算力感知、智能分析决策,具备多中心主动协同,智能调优的能力,构筑起大数据计算平台的核心竞争力,支撑东数西算的全国性布局。

湖仓融合架构成为必然选择

郭志伟介绍,现在中国移动提出了大厨房、备厨具、汇食材的中央厨房服务的新模式,就要去解决这种多部门、多用户之间的协同,来给用户提供众筹式的开发性环境,包括提供社区式的体验。

同时要实现资源的模块化,按需能够弹性扩容、灵活可重用。还要对特定的场景进行数据的加速,要实现业务按需进行相关性调用,要加速很多现有的数据分析。同时还要强调数据民主化,整合多元异构分散的数据,来提供集中共享的模式,在这种模式下,采用湖仓融合架构成为必然选择。

在湖仓融合架构下,郭志伟提出四个核心对应四个核心业务价值。

首先,统一存储是基础。湖仓融合的基础是统一存储,统一存储的基础是计算和存储要分离,即存算分离架构,数据储存在专业的分布式存储基础设施上,打破数据孤岛(如下图),其目的是要解决一些数据的搬迁以及冗余之间的保存数据时效性和一致性,在这个过程中会实现大量成本节约。

其次,统一计算是中间,要提升融合计算的效率。

第三,统一开发是升级,用来提升开发效率,减少多平台业务之间的转换,这样才能够支撑上面的各种计算平台的实时使用。

郭志伟表示,现在统一计算就要基于统一存储来构建离线的数仓、融合的数仓、实时查询数仓、应用分析的数仓生态,必须要支撑多业务协同的场景,同时也不能仅仅局限于大数据的场景,还要实现MPP的拉动,实现跨库关联和融合分析,包括应用型的宽表,支撑多报表,要构建湖仓融合的分析能力,要全面提升分析的效率,加速数据价值提取。

第四,统一算子,就要从底层屏蔽掉算子差异。现在数据领域SQL还是很通用的,为什么大数据为什么门槛高,很多以前的分析人员都习惯于SQL,SQL要强调数据的差异性。还有一个问题要提高一体化的开发环境,现在很多分为流和批的任务,如何把流和批的任务统一起来,同时把流和批的调度统一起来,同时还要继续推进低代码的开发模式,要求作业可以在任意计算平台上运行,同时还要把流、批的统一模式在统一的开发平台上进行实现,然后在调度平台里面可以把相关的调度任务送到相关的计算集群上去。

现在数据的使用和时效性越来越高,包括疫情防控、互联网应用的精准性推销都跟实时都脱不开关系。我们以前是采用批处理的方式,T+1或者T+N,这在以前是很正常的情况。但现在的业务流下就无法实现,现在任务按照时效分很多类型,大体上分几大类----

首先是秒级以下的响应,到5分钟又是一个响应级别,5分钟到1个小时又是一个响应级别,1个小时以上就属于批处理的作业。其实中国移动对于数据时效性入库,包括增量数据的入库和使用需求非常高,所以我们在数据入湖的过程中特别要提出相关性要求,也大幅引入了类似“Hudi”还有相关的其他技术手段。

现在要敏捷支撑实时数据分析,就要将数据进行冷/热划分,从而有效的将真正的冷数据“下沉”,热数据“提升”,这就要求基于数据存储构建数据访问加速层,在基础设施层面采用分布式存储架构,体现分布数据存储的作用(如下图)。中国移动依托于现在湖仓融合的基础设施架构,可以实行敏捷、快速、实时的数据分析。

最后,郭志伟表示,现在中国移动的大数据分布式计算平台不仅仅给自身使用,中国移动还要把大数据领域的计算平台向全社会开放,以此共同构建新型的数据基础设施。在这个过程中会形成行业生态圈,中国移动会积极参与各种各样技术标准的制定,包括参加各种联盟,把自身丰富的行业实践和案例贡献出来,希望和业界共同携手,共同推进大数据产业生态蓬勃,助力经济社会的高效发展。

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章