以错误的体例停止数据仓库

1年前 (2023-02-24)阅读3回复2最佳爬楼位置
丸子
丸子
  • 管理员
  • 注册排名9
  • 经验值277290
  • 级别管理员
  • 主题55458
  • 回复0
楼主

szhzxw.cn/cxounion.org

一段时间以来,做为一个行业,我们不断试图将方形的数据仓库东西塞到圆形的数据驱动利用法式中。但曲到我读了Decodeable首席施行官Eric Sammer的一篇超卓的文章“我们正在滥用数据仓库:RETL, ELT和其他希罕的工具”,我才大白我们在那个过程中为什么会形成损害以及形成了什么损害。正如Sammer所写的那样,“将高价阐发数据库系统放在热路径径上,会给可撑持性和操做带来不实在际的反形式。”

假设你想晓得,“头上穿裤子的反图案”并非一种赞誉。那是一种痛苦的呐喊,“谁来阻遏那种疯狂!”

复杂的数据问题

当问及企业若何对待他们的数据仓库时,有很高的比例(本次查询拜访中有83%)表达不称心。它们很难加载数据。他们拥有非构造化数据,但数据仓库无法处置那些数据,等等。然而,那些其实不必然是数据仓库的问题。我斗胆地揣测,凡是情状下,不满源于试图强迫数据仓库(或者阐发数据库,假设您喜好的话)做一些它不太合适的工作。

根据Sammer的说法,那是错误起头的一种体例:

到目前为行,每小我都看到了rETL(反向ETL)趋向:你想利用利用法式#1(好比Salesforce)中的数据来丰富利用法式#2(例如Marketo)中的数据。因为大大都商铺已经利用像Fivetran如许的ELT东西将数据从利用法式#1发送到数据仓库,许多人摘取了他们认为是捷径的办法,在数据仓库中停止转换,然后利用rETL东西将数据从仓库移出到利用法式#2。

高价的数据仓库和数据湖、ELT和rETL公司乐于搀扶帮助用户摆设一种看似适用的体例来将利用法式组合在一路,即便代价昂扬且复杂。

为什么不呢?“云数据仓库可能是可用的最高贵的CPU周期,”Sammer说。数据仓库拓扑最末会增加数据(在其他问题中产生治理问题),但它确实具有便利的长处。数据仓库很便利,因为它们易于理解。良多人都承受过利用它们的培训,并且已经在利用了。(华东CIO大会、华东CIO联盟、CDLC中国数字化灯塔大会、CXO数字化研学之旅、数字化江湖-讲武堂,数字化江湖-大侠传、数字化江湖-论剑、CXO系列治理论坛(陆家嘴CXO治理论坛、宁波东钱湖CXO治理论坛等)、数字化转型网,走进灯塔工场系列、ECIO大会等)

展开全文

准确的问题,错误的处理计划

Sammer提出了一个令人心服的看点,即它们是构建数据驱动利用法式的最错误、最高贵的体例。为什么?因为“在两个Tier 1利用法式之间放置数据仓库是一个[坏]主意。”公司倾向于不把他们的阐发系统视为“第1层,营业关键组件”。因而,“公司不会为跨可用性区域的高可用性复造阐发东西和数据;他们(凡是)不带觅唤机;它们不会反复过程。”成果是“浩荡的成本和风险”。或者,正如他总结的那样,“我们无意中将客户体验设想成依靠于迟缓的批处置ELT流程。”

那么还有什么替代计划呢?

对Sammer来说,那一切都是关于流数据,而不是ELT(或reETL)。它是关于基于Kappa架构的实时数据管道。Kappa系统构造意味着您有一个“只能逃加的不成变日记”。毕马威(KPMG)大数据工程专家Milinda Pathirage阐明说:“从日记中,数据通过计算系统传输,并输进辅助存储以供办事。”或者,正如Confluent首席施行官Jay Kreps在2014年担任领英(LinkedIn)的工程主管时所写的那样,他反对Sammers所否认的那种“原封不动”的Lambda架构办法,“为什么不克不及对流处置系统停止改进,以处置目标范畴的全数问题集?”

也就是说,让流成为数据宇宙的中心。

Sammers认为,如许做的益处有几个:“它的成本低得多,供给了一级量量的sla,而不需要复造数据的成本,容许部门毛病而不是全数毛病,并使数据仓库远离关键途径。简单地说,Kappa意味着从利用1中提取数据,将其以小块的形式发送到数据网关,根据需要停止转换/丰富,然后并行地传递到所有需要的处所。”

即便您不认为流会代替数据库(我小我不那么认为),也很随便承受如许的看点,即数据管道/流比试图在阐发数据库之间往返推数据更契合将来的趋向。固然Kappa和类似的办法供给实时数据,但它并非实正的数据。根据Sammer的说法,那是为告终束“rETL正在积存的大量手艺债务”。那是关于解开对阐发东西的关键依靠,并使撑持可继续。”

下次当你在构建一款拥有排行榜或需要数据供给信息的利用时(游戏邦注:那类利用的比例正在不竭扩展),你应该问问本身,为什么你的默认数据假设是停滞的:数据存储在存储空间中,然后你必需将其从利用法式推到利用法式,从系统推到系统。我们不再生活在面向批处置的世界。Sammers似乎是准确的:流应该是默认的,而不是破例。

本文次要内容转载原做者Matt Asay,仅供广阔读者参考,若有进犯您的常识产权或者权益,请联络我供给证据,我会予以删除。

CXO联盟(CXO union)是一家聚焦于CIO,CDO,cto,ciso,cfo,coo,chro,cpo,ceo等人群的平台组织,此中在CIO会议范畴的领头羊,目前举办了大量的CIO大会、CIO论坛、CIO活动、CIO会议、CIO峰会、CIO会展。如华东CIO会议、华南cio会议、华北cio会议、中国cio会议、西部CIO会议。在那里,你能够参与大量的IT大会、IT行业会议、IT行业论坛、IT行业会展、数字化论坛、数字化转型论坛,在那里你能够熟悉良多的首席信息官、首席数字官、首席财政官、首席手艺官、首席人力资本官、首席运营官、首席施行官、IT总监、财政总监、信息总监、运营总监、摘购总监、赐与链总监。

数字化转型网(资讯媒体,是企业数字化转型的必读参考,在那里你能够进修大量的常识,如财政数字化转型、赐与链数字化转型、运营数字化转型、消费数字化转型、人力资本数字化转型、市场营销数字化转型。通过存眷我们的公家号,你就晓得若何实现企业数字化转型?数字化转型若何做?

【CXO UNION部门社群会员】浙农股份CISO、天际股份CISO、凤形股份CISO、浙江建投CISO、金发拉比CISO、汇洁股份CISO、蓝黛科技CISO、索菱CISO、前锋电子CISO、国恩股份CISO、普路通CISO、科迪CISO、实视通CISO、寡兴菌业CISO、康弘药业CISO、称心电梯CISO、文科园林CISO、柏龙CISO、长远银海CISO、中晟高科CISO、中坚科技CISO、三夫户外CISO、奇信股份CISO、可立克CISO、凯龙股份CISO、万里石CISO、银宝山新CISO、华源控股CISO、鹭燕医药CISO、建艺集团CISO、瑞尔特CISO、坚朗五金CISO、通宇通信CISO、罗欣药业CISO、永和智控CISO、世嘉科技CISO、第一创业CISO、帝欧家居CISO、全球印务CISO、天顺股份CISO、微光股份CISO、洪汇新材CISO、吉宏股份CISO、丰元股份CISO、华锋股份CISO、江阴银行CISO、长久科技CISO、红墙股份CISO、山东赫达CISO、郑中设想CISO、恩捷股份CISO、路畅科技CISO、崇达手艺CISO、和科达CISO、黄山胶囊CISO、富森美CISO、东方中科CISO、桂发源CISO、凯莱英CISO、中拆建立CISO、凯中精巧CISO、和胜股份CISO、纳尔股份CISO、易明医药CISO、高争民爆CISO、贝肯能源CISO、星网宇达CISO、名雕股份CISO、裕同科技CISO、比音勒芬CISO、弘亚数控CISO、同为股份CISO、新宏泽CISO、英维克CISO、道恩股份CISO、张家港行CISO、华统股份CISO、视源股份CISO、翔鹭钨业CISO、泰嘉股份CISO、同兴达CISO、英联股份CISO、盐津展子CISO、高斯贝尔CISO、威星智能CISO、科达利CISO等

0
回帖

以错误的体例停止数据仓库 相关回复(2)

柳絮飘飘
柳絮飘飘
沙发
以错误的体例停止数据仓库这本书提醒我们,正确的方法至关重要。
话唠5分钟前回复00
悠悠岁月
悠悠岁月
2楼
以错误的体例停止数据仓库无异于缘木求鱼,正确策略方能高效处理数据分析问题。
话唠4分钟前回复00
取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息