数据湖、数据仓库和数据集市那三种架构如今都已在企业中成立起来,而且是可靠数据平台的一部门,但它们之间有何差别?但是,能够说那些概念不只是合作者,并且是彼此成立和依靠的。
01
数据仓库与数据湖
在数据湖中,组织能够存储大量构造化、半构造化和非构造化数据,并使其立即可用于实时阐发、数据科学和机器进修用例。利用数据湖,数据以其原始形式提取,无需修改。固然数据仓库利用典范的 ETL 过程并连系关系数据库中的构造化数据,但数据湖利用 ELT 和读取形式等规范以及凡是的非构造化数据 [2]。
数据仓库与数据湖的差别 — 图片做者
数据仓库能够在数据湖上成立,它是构造化的、颠末过滤的数据的存储库,那些数据已经为特定目标停止了处置 [1]。
02
数据集市
类似于能够构建在数据湖上的数据仓库,数据集市能够构建在数据仓库上,能够说是专注于单个主题或营业范畴的数据仓库的简单形式或子集,例如销售、财政或市场营销。
因为它们的重点,数据集市从比数据仓库更少的来源获取数据。数据集市不只能够包罗来自数据仓库的内容,还能够包罗外部内容,例如电子表格和特定于域的类似来源。
数据仓库与数据集市 — 图片来源:panoply.io [2]
原文章链接:
0