服务粉丝

我们一直在努力

spark

  • 生产Spark On Yarn With Kerberos流程

  • 1.hadooptool131CDH部署hdfs 、yarn、 hbase的gateway⻆⾊(其实目的是为了客户端配置文件)2.keytab⽂件权限(每个节点)[root@hadooptool131 ~]# chmod 777 /etc/kerberos/*.
  • Spark + iceberg的API

  • 由于spark版本问题,所以使用 iceberg-api操作创建表。IcebergApi .javapackage org.example;

    import org.apache.hadoop.conf.Configuration;

    import org.apache.iceberg.S
  • Spark处理数据倾斜过程记录

  • 数据倾斜是指我们在并行进行数据处理的时候,由于数据散列引起Spark的单个Partition的分布不均,导致大量的数据集中分布到一台或者几台计算节点上,导致处理速度远低于平均计算速
  • Spark Catalog深入理解与实战

  • 写过Spark应用程序的同学都知道,通过下面这段代码就可以加载和访问外部Hive数据源:SparkSession.builder(). appName(TestSparkHive.class.getSimpleName()). m
  • spark原理和实践

  • 一、大数据处理引擎Spark介绍1.大数据处理技术栈大数据的特性,数据是海量的,数据源是丰富多样的,有消息,图片,音视频流,数据产生的非常快,需要快速处理,提高数据价值。 数据生成后,需
  • spark-streaming 状态流之 mapWithState

  • 背景刚接触spark-streaming,然后写了一个WordCount程序,对于不停流进来的数据,需要累加单词出现的次数,这时就需要把前一段时间的结果持久化,而不是数据计算过后就抛弃,在网上搜索
  • Spark 如何对源端数据做切分?

  • 引言典型的Spark作业读取位于OSS的Parquet外表时,源端的并发度(task/partition)如何确定?特别是在做TPCH测试时有一些疑问,如源端扫描文件的并发度是如何确定的?是否一个parquet文
  • Apache Spark UI 命令注入漏洞(CVE-2022-33891)

  • OSCS(开源软件供应链安全社区)推出免费的漏洞、投毒情报订阅服务,社区用户可通过机器人订阅情报信息:https://www.oscs1024.com/?src=csdn漏洞概述7月18日,OSCS 监测到 Apache
  • Spark将70%的TowerCo业务以9亿加元售出

  • 据Capacitymedia网站7月12日报道,Spark New Zealand以9亿加元的价格将其TowerCo业务70%的权益出售给安大略省教师养老金计划委员会。图片来自:GoogleSpark新西兰区主席Justine
  • Spark源码系列(一)spark-submit提交作业过程

  • 问题导读:
    1.spark是如何提交作业的?
    2.Akka框架是如何实现的?
    3.如何实现调度的?

    前言折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。这个是Sp
  • Spark读取和存储HDFS上的数据

  • 本篇来介绍一下通过Spark来读取和HDFS上的数据,主要包含四方面的内容:将RDD写入HDFS、读取HDFS上的文件、将HDFS上的文件添加到Driver、判断HDFS上文件路径是否存在。1、启动H

栏目导览

当前栏目 · spark

掌握该分类的选题方向、更新节奏以及延展阅读建议。

阅读小贴士

将想看的文章加入书签,或分享到工作群,方便协作讨论。

沉浸体验

结合站内其他频道(财经、科技、生活)形成完整信息链路。

精选阅读导航

  • 娱乐热点

    追踪影娱圈新鲜事,轻松掌握话题焦点。

    直达频道
  • 商业财经

    洞察市场动向与行业趋势,辅助决策判断。

    直达频道
  • 品质生活

    集结旅行、美食、健康灵感,为生活加分。

    直达频道