浏览数据集市、湖泊、仓库和金库

在过去几年中,每个人都在谈论大数据。希望更加数据驱动的企业必须整合各种不同的基础架构。但是,您可能很难理解数据湖泊和仓库的相遇位置,以及您甚至可能需要数据库的原因。

很简单,这些概念中的每一个都归结为寻找以有效方式摄取和管理数据的方法,以便当今的数据分析驱动决策。以下是选项的细分,它们的关联方式以及它们的用途。

数据仓库

数据仓库或有时已知的企业数据仓库是更精心策划的数据存储库。它对于为业务用户提供以可用格式访问正确信息的方式是非常宝贵的 - 并且可以包括当前和历史信息。随着数据进入数据仓库环境,数据将被清理,转换,分类和标记 - 从合规性角度来看,管理,使用和监控变得更加容易,这也是自动化的用武之地。

当今企业所经历的数据量和速度意味着在现代世界中,手动提取这些数据,处理数据并确保以满足数据仓库内的合规性要求的方式存储和访问这些数据是不可行的。但是,随着企业不断将数据作为报告和预测的来源,数据仓库非常宝贵。重要的是数据湖不能仅仅因为摄取的感知努力而包含更结构化的数据基础设施的角色。自动化可以帮助加快摄取和处理速度,从而通过数据仓库中的数据驱动决策快速跟踪价值实现时间。

数据集市

数据集市是数据仓库的特定子集,通常用于特定主题区域的策划数据,需要在短时间内轻松访问。由于其特殊性,它的构建通常比完整的数据仓库更快,更便宜。但是,数据集市无法策划和管理来自整个企业的数据,以便为业务决策提供信息。

数据湖

数据湖是巨大的数据集合,从未组织或处理的原始数据到不同级别的策划数据集。分析目的的一个好处是,不同类型的消费者可以根据他们的需求访问适当的数据。这使得它非常适合某些较新的用例,例如数据科学,人工智能和机器学习,这些用例被许多公司视为分析工作的未来。这是在可扩展存储解决方案上存储大量原始数据的好方法,无需尝试传统的ETL或ELT(提取,转换,加载),这在此卷上可能很昂贵。但是,对于更传统的分析,这种类型的数据环境可能很笨拙和混乱 - 这就是为什么组织转向其他解决方案来管理更结构化环境中的基本数据。

就数据基础架构中的定位而言,如果您愿意,数据湖泊可以用于其他数据基础架构的上游,并且可以用作更加结构化的方法(如数据仓库)的临时区域,以及提供数据探索和数据科学。

数据存储库

数据库建模是一种数据仓库方法,旨在解决数据转换过程中数据转换带来的一些挑战。数据保险库的一大优势是它不会评估哪些数据是“有价值的”和什么不是,而一旦数据被处理并清理到仓库环境中,通常就会做出这个决定。数据保险库可以灵活地对其进行管理,并且可以解决不断变化的数据来源,从而导致数据库方法被认为是提供“单一版本的事实”,而不是“单一版本的事实”。

对于拥有大型,不断增长和不同数据集的企业而言,数据仓库的数据仓库方法可以帮助将大数据的野兽驯服成可管理的,以业务为中心的解决方案,但可能需要一些时间来设置。数据保险库自动化是确保组织提供和维护符合Data Vault 2.0方法严格要求的数据保险库的关键组件,并且能够以实用,经济,及时的方式实现这一目标。

虽然每种数据方法都有细微差别,但每种方法都在组织中摄取,管理和交付数据方面发挥着自己的作用。在尝试制定如何充分利用大数据的战略时,了解它们如何组合在一起对于IT经理和业务负责人来说是一个有价值的工具。自动化等技术可以帮助加快这些实践的建立和管理,并可以帮助企业充分利用其基础架构。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();