阿里云-数据仓库-全链路大数据开发治理平台-DataWorks的数字世界

3天前 (02-24 07:51)阅读1回复0
路人甲
路人甲
  • 管理员
  • 注册排名2
  • 经验值131755
  • 级别管理员
  • 主题26351
  • 回复0
楼主

一、媒介

上文我讲到 阿里云-数据仓库-数据阐发开发神器-ODPS ,今天我率领各人一路走进神器的生长情况及它的数据世界。

二、 DataWorks是什么

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等处理计划供给同一的全链路大数据开发治理平台。

它是数据工厂,集成供给对ODPS数据停止加工处置,次要供给了:数据集成、数据开发、数据治理、数据治理、数据分享等功用。

三、产物架构

通过智能数据建模、全域数据集成、高效数据消费、主动数据治理、全面数据平安、数据阐发办事六大全链路数据治理的才能,搀扶帮助企业治理内部不竭上涨的“数据悬河”,释放企业的数据消费力。

3.1 、智能数据建模

智能数据建模 是 依托阿里巴巴十多年来数仓建模办法论的更佳理论凝聚构成 ,里面包罗数仓规划、数据原则、维度建模及数据目标四大模块,能够搀扶帮助企业在搭建数据中台、数据集市建立过程中提拔建模及逆向建模的才能,并通过数据建模快速构建企业数据资产。

DataWorks智能建模 引进后带来的益处:

1、海量数据的原则化治理;

2、营业数据互联互通,突破信息壁垒;

能够突破 公司内部各营业、各部分之间信息孤岛,快速地领会公司各类数据情状,动态及时的数据为 企业决策层 做营业决策供给数据参考。

展开全文

3、数据同一原则化整合,同一乖巧对接;

4、 在更大程度上用好企业各类数据,使企业数据价值更大化,为企业供给更高效的数据办事。

3.2 全域数据集成

DataWorks数据集成供给不变高效、弹性伸缩的数据同步平台,实现数据自在离线或实时活动,努力于供给复杂收集情况下、丰富的异构数据源之间高速不变的数据挪动及同步才能。

1、丰富的异构数据源

撑持关系型数据库、文件存储、大数据存储、动静队列等50种数据源

不限造链路,读写插件都撑持

2、离线、实时同步全场景笼盖

全增量一体化实时同步,全量增量数据主动合并

撑持分库分表离线实时同步

3、齐全的收集处理计划

供给所有收集场景下的同步处理计划

撑持跨产物、跨账号、跨云、数据同步

3.3、 高效数据开发

DataWorks数据开发(DataStudio)与运维中心面向各引擎(MaxCompute/Hologres/EMR/CDP等)供给可视化开发的主界面,付与用户智能代码开发、多引擎混编工做流、标准化使命发布的强大才能,让用户轻松构建离线数仓、实时数仓与即席阐发系统,包管数据消费的高效与不变。

1、DataStudio撑持MaxCompute、EMR、CDH、Hologres、AnalyticDB、Clickhouse等多种计算引擎,撑持在同一的平台长进行各类引擎使命的开发、测试、发布和运维等操做。

2、DataStudio撑持智能编纂器、可视化依靠编排,调度才能颠末阿里集团内调度使命、复杂营业依靠的频频验证。

3、DataStudio供给隔离的开发和消费情况,连系版本治理、代码评审、冒烟测试、发布管控、操做审计等配套功用,搀扶帮助企业标准地完成数据开发。

4、运维中心撑持数据时效性保障、使命诊断、影响阐发、主动运维、挪动运维等功用。

3.4 、 主动数据治理

DataWorks数据治理包罗数据治理中心、数据量量、数据地图等多个产物,笼盖事前、事中、过后的数据生命周期,通过数据治理安康分、量量规则、数据大血缘等才能,将书面的数据治理标准落地成平台化的产物才能,让数据治理不再一个 “阶段性项目”,而是一个“可继续的运营项目”。

3.5 、快速阐发办事

DataWorks数据阐发与办事旨在为企业供给全面的数据阐发与办事共享才能。

数据阐发基于“人人都是数据阐发师”的产物目标,旨在为更多非专业数据开发人员,如数据阐发、产物、运营等工做人员供给愈加简洁高效的取数、用数东西,提拔各人日常取数阐发效率。

1、简单快速的数据阐发

撑持MaxCompute、Hologres、EMR等多种数据源自助SQL查询,撑持电子表格间接停止快速预览,数据的上传与下载。

2、零代码快速构建API数据办事

撑持通过可视化的领导形式生成API,也撑持通过SQL脚本形式编写复杂查询逻辑生成API

3、高效的办事编排

供给挈拽式的工做流编排才能,以串、并行和分收等构造编排多个API及函数办事为工做流,创建复杂API

四、DataWorks开发形式及其它功用区阐明

DataWorks 目前供给简单形式和原则形式二种。

二种 工做空间形式中 简单形式能够晋级原则形式,但原则形式无法晋级简单形式,详细原因 阅读完下面内容各人自会大白。

简单形式

简单形式不区分隔发与消费情况,开发的代码能够间接进进运维中心上线调度主动运行。

原则形式

原则形式工做空间,可隔分开发情况与消费情况,

摘用二套计算引擎(项目、实例或数据库)隔离分隔,开发的代码使命需要先提交至开发情况,再施行发布操做,将使命发布至消费情况,才能够主动调度运行使命。

新建调度资本

一般停止简单的数据阐发只需要默认的调度资本就称心营业需求(目前的形式就是按量付费)

需要停止特殊操做或引用第三方组件、法式时 数据集成、数据操做时会用到自定义资本。

新增数据源

DataWorks空间:抉择项目 - 抉择数据集成 - 同步资本治理 - 数据源

批量数据上云进库

DataWorks空间:- 抉择数据集成 - 同步资本治理 - 数据源 - 整库数据迁徙

也可针对指定表停止同步:

可视化的开发界面

撑持通过挈拉拽的体例构建使命流程,在同一的界面停止数据开发和调度设置装备摆设。

该界面为数据阐发日常开发最重要界面。

运维中心

运维中心撑持数据时效性保障、使命诊断、影响阐发、主动运维、挪动运维等功用。

数据地图

DataWorks空间:单击左上角的图标,抉择全数产物 数据地图。

默认进进数据地图首页,我们能够在该页面输进关键字搜刮需要的表,并能够查看近期阅读和近期读取的表,以及基于您的拜候笔录选举的热门阅读和热门读取。

我们能够根据项目找到本身需要的表,单击全数数据。

在左侧项面前目今拉框中抉择响应的项目,即可查看该项面前目今的表和EMR表。也能够对响应的表停止收躲、申请权限、查看血缘和查看SQL等操做。

假设查看工做空间的整体情状,请单击数据总览。

假设需要修改拥有的表等,请单击我的数据。

版权声明:本文为CSDN博主「风一样的美狼子」的原创文章,遵照CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:

0
回帖

阿里云-数据仓库-全链路大数据开发治理平台-DataWorks的数字世界 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息