现代数据堆栈通常是指构成云原生数据平台的一组技术,对比传统的数据平台,使用它们可以大大的降低复杂度,这个技术栈的构成组件不是固定的:
现代数据堆栈用于描述为满足云中数据生命周期不同阶段的需求而采用的工具组合。这与特定工具无关;每种技术都具有处理数据生命周期不同部分的能力,并且当您将这些技术组合到一个堆栈中时会有很多重叠。以下是分析背景下的一些能力:
从所有事件源(如 Web、应用程序、后端服务)收集数据,并将它们发送到数据仓库。
付费 SaaS 工具:Stitch、Fivetran
免费和开源替代品:Singer、Meltano、Airbyte
组织所有数据的结构化、非易失性、单一事实来源,我们可以在其中存储和查询所有数据。
付费:AWS Redshift、Google BigQuery、Snowflake
免费和开源替代品:Apache Druid
使用文档从原始数据创建模型以更好地使用。
付费:Dataform、DBT
免费和开源替代品:Talend Open Studio、Apache NiFi
用于执行和编排处理数据流的作业的软件。
付费:Prefect.io
免费和开源替代品:Apache Airflow、Dagster
为了更好地了解和解释来自不同数据源的数据。
付费:Tableau、Microsoft PowerBI、Grafana
免费和开源替代品:Metabase、D3js、DyGraphs
| 留言与评论(共有 0 条评论) “” |