数据湖与数据仓库与数据集市

3天前 (02-24 07:51)阅读1回复0
小小的人啊
小小的人啊
  • 管理员
  • 注册排名4
  • 经验值131650
  • 级别管理员
  • 主题26330
  • 回复0
楼主

数据湖、数据仓库和数据集市那三种架构如今都已在企业中成立起来,而且是可靠数据平台的一部门,但它们之间有何差别?但是,能够说那些概念不只是合作者,并且是彼此成立和依靠的。

01

数据仓库与数据湖

在数据湖中,组织能够存储大量构造化、半构造化和非构造化数据,并使其立即可用于实时阐发、数据科学和机器进修用例。利用数据湖,数据以其原始形式提取,无需修改。固然数据仓库利用典范的 ETL 过程并连系关系数据库中的构造化数据,但数据湖利用 ELT 和读取形式等规范以及凡是的非构造化数据 [2]。

数据仓库与数据湖的差别 — 图片做者

数据仓库能够在数据湖上成立,它是构造化的、颠末过滤的数据的存储库,那些数据已经为特定目标停止了处置 [1]。

02

数据集市

类似于能够构建在数据湖上的数据仓库,数据集市能够构建在数据仓库上,能够说是专注于单个主题或营业范畴的数据仓库的简单形式或子集,例如销售、财政或市场营销。

因为它们的重点,数据集市从比数据仓库更少的来源获取数据。数据集市不只能够包罗来自数据仓库的内容,还能够包罗外部内容,例如电子表格和特定于域的类似来源。

数据仓库与数据集市 — 图片来源:panoply.io [2]

原文章链接:

0
回帖

数据湖与数据仓库与数据集市 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息