服务粉丝

我们一直在努力

Spark

  • 生产Spark On Yarn With Kerberos流程

  • 1.hadooptool131CDH部署hdfs 、yarn、 hbase的gateway⻆⾊(其实目的是为了客户端配置文件)2.keytab⽂件权限(每个节点)[root@hadooptool131 ~]# chmod 777 /etc/kerberos/*.
  • Spark + iceberg的API

  • 由于spark版本问题,所以使用 iceberg-api操作创建表。IcebergApi .javapackage org.example;

    import org.apache.hadoop.conf.Configuration;

    import org.apache.iceberg.S
  • Spark处理数据倾斜过程记录

  • 数据倾斜是指我们在并行进行数据处理的时候,由于数据散列引起Spark的单个Partition的分布不均,导致大量的数据集中分布到一台或者几台计算节点上,导致处理速度远低于平均计算速
  • Spark Catalog深入理解与实战

  • 写过Spark应用程序的同学都知道,通过下面这段代码就可以加载和访问外部Hive数据源:SparkSession.builder(). appName(TestSparkHive.class.getSimpleName()). m
  • spark原理和实践

  • 一、大数据处理引擎Spark介绍1.大数据处理技术栈大数据的特性,数据是海量的,数据源是丰富多样的,有消息,图片,音视频流,数据产生的非常快,需要快速处理,提高数据价值。 数据生成后,需
  • spark-streaming 状态流之 mapWithState

  • 背景刚接触spark-streaming,然后写了一个WordCount程序,对于不停流进来的数据,需要累加单词出现的次数,这时就需要把前一段时间的结果持久化,而不是数据计算过后就抛弃,在网上搜索
  • Spark 如何对源端数据做切分?

  • 引言典型的Spark作业读取位于OSS的Parquet外表时,源端的并发度(task/partition)如何确定?特别是在做TPCH测试时有一些疑问,如源端扫描文件的并发度是如何确定的?是否一个parquet文
  • Apache Spark UI 命令注入漏洞(CVE-2022-33891)

  • OSCS(开源软件供应链安全社区)推出免费的漏洞、投毒情报订阅服务,社区用户可通过机器人订阅情报信息:https://www.oscs1024.com/?src=csdn漏洞概述7月18日,OSCS 监测到 Apache
  • Spark将70%的TowerCo业务以9亿加元售出

  • 据Capacitymedia网站7月12日报道,Spark New Zealand以9亿加元的价格将其TowerCo业务70%的权益出售给安大略省教师养老金计划委员会。图片来自:GoogleSpark新西兰区主席Justine
  • Spark源码系列(一)spark-submit提交作业过程

  • 问题导读:
    1.spark是如何提交作业的?
    2.Akka框架是如何实现的?
    3.如何实现调度的?

    前言折腾了很久,终于开始学习Spark的源码了,第一篇我打算讲一下Spark作业的提交过程。这个是Sp
  • Spark读取和存储HDFS上的数据

  • 本篇来介绍一下通过Spark来读取和HDFS上的数据,主要包含四方面的内容:将RDD写入HDFS、读取HDFS上的文件、将HDFS上的文件添加到Driver、判断HDFS上文件路径是否存在。1、启动H

热门文章

  • 青海公益电影放映 打通文化惠民“最后一公里”

  •   青海新闻网·大美青海客户端讯(记者 崔永焘 摄影报道) “有时候,电影放到一半,观众只剩下老人和孩子,但放映员依然要有耐心,哪怕只有一个观众,也要把这部电影分毫不差地放完,
  • 实力女神周海媚亮相《实力派》,谈人生聊表演

  • 当影视行业逐渐摆脱了流量控制,开启最本源的以内容为导向的竞争态势之后,那些在演艺圈努力打拼数十年的优秀演员,再度迎来了全新的春天。于是影视界“叔圈”“姐圈”频频破圈,成