什么是现代数据堆栈(Modern Data Stack)

现代数据堆栈通常是指构成云原生数据平台的一组技术,对比传统的数据平台,使用它们可以大大的降低复杂度,这个技术栈的构成组件不是固定的:

  • 一个云端的数据仓库,比如Snowflake, Redshift, BigQuery或者Databricks Delta Lake
  • 一个数据集成服务,比如Fivetran, Segment或者Airbtye
  • 一个ELT数据转换工具,几乎确定是dbt
  • 一个BI层,例如Looker或者Mode
  • 一个反向ETL工具,比如Census或者Hightouch

现代数据堆栈用于描述为满足云中数据生命周期不同阶段的需求而采用的工具组合。这与特定工具无关;每种技术都具有处理数据生命周期不同部分的能力,并且当您将这些技术组合到一个堆栈中时会有很多重叠。以下是分析背景下的一些能力:

提取和加载

从所有事件源(如 Web、应用程序、后端服务)收集数据,并将它们发送到数据仓库。

付费 SaaS 工具:Stitch、Fivetran

免费和开源替代品:Singer、Meltano、Airbyte

数据仓库

组织所有数据的结构化、非易失性、单一事实来源,我们可以在其中存储和查询所有数据。

付费:AWS Redshift、Google BigQuery、Snowflake

免费和开源替代品:Apache Druid

转换和建模

使用文档从原始数据创建模型以更好地使用。

付费:Dataform、DBT

免费和开源替代品:Talend Open Studio、Apache NiFi

编排

用于执行和编排处理数据流的作业的软件。

付费:Prefect.io

免费和开源替代品:Apache Airflow、Dagster

可视化和分析

为了更好地了解和解释来自不同数据源的数据。

付费:Tableau、Microsoft PowerBI、Grafana

免费和开源替代品:Metabase、D3js、DyGraphs

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章