服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

Spark 凭什么成为最火的大数据计算引擎?| 极客时间

日期: 来源:InfoQ收集编辑:

现在,几乎所有公司都离不开推荐、广告、搜索这 3 类业务场景,因此 Spark 也相应成了大多数互联网公司的标配:

美团在 2014 年就引入 Spark,并将其逐渐覆盖到大多数业务线;字节跳动也基于 Spark 构建数据仓库,去服务了几乎所有的产品线;还有 Facebook 也将数据分析引擎切换为 Spark。

以美团为例,它海量的日志数据将被汇总处理、分析、挖掘与学习,为各种推荐、搜索系统甚至公司战略目标制定提供数据支持。

而 Spark 能在相同资源使用情况下,把作业执行的速度提升百倍,极大的提高了生产效率,这也是 Spark 逐步替代 MapReduce 作业,成为美团大数据处理的主流计算引擎的原因。

我觉得,在发展迅猛的数据应用领域,Spark 能持久地立于不败之地,主要是因为它“快”和“全”



Hadoop 和 Spark 的对数几率回归对比,运行速度相差 100 倍

Spark 的开发和执行效率都很快,它支持多种开发语言,提供种类丰富的开发算子,让开发者能快速地完成数据应用开发;另外,它在计算场景的支持上也非常强大,能让开发者在同一套计算框架之内,实现不同类型的数据应用。

Spark 子框架与不同的计算场景

在数据应用领域,无论你是大数据工程师、数据分析师、数据科学家,还是机器学习算法研究员,Spark 都是必备的傍身之计。

但入门 Spark 却不是件容易的事,知识点繁多复杂,Scala 语法也晦涩难懂。如果只照本宣科地看原理,一旦遇到具体的业务需求,大概率还是无从下手。

这里推荐给你一副「Spark 知识体系全景图」,涉及 Spark 入门必备的 80% 以上的知识点,十分全面。

Spark 知识体系全景图

这张图出自吴磊,他是国内第一批搞 Spark 的人,目前是 Freewheel 公司机器学习团队负责人,主导计算广告业务中机器学习的应用、落地与推广,有丰富的大数据开发与调优经验,曾任职于 IBM、联想研究院、新浪微博等大厂。同时他曾在 CSDN、《 IBM developerWorks 》、《程序员》和  InfoQ 上发布过多篇技术干货,深受好评。

最重要的,磊哥还是 2021 年的 AWS Machine Learning Hero 得主,更是 30 个入选人中唯一一个中国人(这个奖每年由亚马逊公司策划和评选,含金量很高)。

最近,磊哥推出了《零基础入门 Spark》专栏。在专栏里,他专门结合自己的学习和成长经历,讲了如何快速构建 Spark 核心知识体系,以及 从 0 到 1 入门 Spark 的窍门等,还结合了 Spark 三大计算场景案例的实操。

值得一提的是,磊哥专栏里的代码都是逐句注释,而且在讲开发实战技巧的模块,也贴心地用故事来带入,既形象生动又便于理解记忆,做到真正的从项目入手,带你深入浅出玩转 Spark

原价 ¥129

新人首单 ¥59,立即享 5 折

老用户到手 ¥90,立享 7 折

仅限前『100 名用户』有效

戳海报免费试读⬆️

吴磊是如何讲解 Spark 专栏的?

磊哥根据自己多年经验总结了一套「入门 Spark 三步法」,传神地将运用 Spark 比作“驾驶赛车”,而入门 Spark 也和学开赛车一样,仅需三步:

第一步是学基础,掌握 Spark 常用的开发 API 与开发算子,第二步是学工作原理,吃透 Spark 的核心原理,第三步是应对各类场景,玩转 Spark 计算子框架。

为了更好地提升大家的学习效率,他在专栏中设计了基础知识、Spark SQL、Spark MLlib 和 Structured Streaming 这 4 个模块,将这“三步走”完美融入其中。

“三步走”与专栏内容安排

第一个模块是基础知识。他会详细讲解包括 RDD 编程模型、Spark 进程模型、调度系统、存储系统、Shuffle 管理、内存管理等在内的 Spark 核心原理,并通过一个个有趣的故事,让你像读小说一样轻松诙谐地弄懂 Spark 。

第二个模块是 Spark SQL。他会从一个小项目入手,带你先熟悉开发 API ,再结合案例讲解 Spark SQL 的核心原理与优化过程,再重点介绍 Spark SQL 与数据分析有关的部分,如数据的转换、清洗、关联、分组、聚合、排序等等。

第三个模块是 Spark 机器学习子框架:Spark MLlib。他从“房价预测”这个项目入手,带你初步了解机器学习中的回归模型、及 Spark MLlib 的基本用法,同时深入学习 Spark MLlib 丰富的特征处理函数,和支持的模型与算法,并构建端到端的机器学习流水线。此外,他还会分享 Spark + XGBoost 集成,是如何帮助开发者应对大多数的回归与分类的问题。

第四个模版是 Spark 的流处理框架 Structured Streaming。他会重点讲解 Structured Streaming 如何同时保证语义与数据的一致性,以及如何应对流处理中的数据关联,并通过 Kafka + Spark 这对“Couple”的系统集成,演示流处理中的典型计算场景。

相信经过这四个部分的“洗礼”,你能很快建立属于自己的 Spark 知识体系,彻底跨进了 Spark 应用开发的大门,最终成功交付一个满足业务需求、运行稳定、且执行性能良好的分布式应用,并能对大部分的数据应用需求都灵活应对。

说了那么多,看看目录吧:

磊哥的分享,最厉害的点就在于他的技术讲解非常通俗易懂,有种看武侠小说的感觉,即便我们面对的是一个全新的领域,也能在最短的时间内,做到零基础快速入门。

市面上关于 Spark 的课良莠不齐,像磊哥这样能带着你从 0 到 1 构建知识体系,甚至连源码都带逐句注释和讲解的,确实不多了。推荐给想要进入大数据领域或想对大数据基础查缺补漏的朋友,真的很值得一看。

老规矩,给大家申请了专属优惠:

原价 ¥129

新人首单 ¥59,立即享 5 折

老用户到手 ¥90,立享 7 折

仅限前『100 名用户』有效

戳海报免费试读⬇️️

专栏里的内容,将 Spark 讲的清晰体系化,磊哥从项目入手,带你深入浅出玩转 Spark。让我们找到正确的发力点,真正把劲儿使对地方。

相关阅读

  • 研究生不会Origin,就像打字员不会Word?

  • 本文来自百万硕博成长平台“科藤学术中心” 可点击关注科藤学术中心见证中国科研进步,服务百万未来学者。57篇原创内容公众号作为一名研究生,你是不是经常羡慕别人论文或PPT中
  • 经济日报丨财经早餐【3月25日星期六】

  • ■ 国务院总理李强24日主持召开国务院常务会议,确定国务院2023年重点工作分工,研究优化完善部分阶段性税费优惠政策,审议“三农”重点任务工作方案,听取巩固拓展脱贫攻坚成果情
  • 我国科学家向联合国赠送全球水资源数据产品

  • 记者从中国科学院获悉,在正在召开的联合国2023年水事会议上,中国可持续发展大数据国际研究中心向联合国赠送了全球水资源数据产品(2023版)。本次赠送给联合国的全球水资源数据产
  • GDC I 《重返帝国》千人同屏战斗技术分享

  • 第35届全球游戏开发者大会 (GDC) 于 3 月 20 至 24 日在美国旧金山举行。腾讯天美 T2 工作室的客户端组主程序肖健和引擎负责人侯仓健在会上进行了主题为“千人同屏战斗:Unity

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四

最新文章

  • 醒醒吧,没有什么安全的软件供应链

  • 作者 | John McBride 译者 | 平川 策划 | 凌敏 本文最初发布于 John McBride 的个人博客。 多年前,企业家和创新者就预言“软件将吞噬世界”。毫不奇怪,年复一年,世界
  • 中国激光杂志社招聘人事行政主管

  • 本文为中国激光第2872篇。欢迎点击在看、转发,让更多人看到招聘岗位人事行政主管职责描述1、依据公司发展战略,协助领导制定人力资源战略规划;2、根据公司战略和人力发展规划,提