买了GPU后,我哭了18次…

3周前 (11-16 04:10)阅读1回复0
丸子
丸子
  • 管理员
  • 注册排名9
  • 经验值60675
  • 级别管理员
  • 主题12135
  • 回复0
楼主

回想几个月前,GPU 办事器批量上架的那一刻,老刘心里仍是气呼呼的。

可千万没想到!

GPU办事器买进来,营业部分一提需求,老刘急哭了18次。

一次比一次哭声大!

工作原委是酱婶儿的

老刘(刘宇),是某大甲方信息中心根底架构部的副总,主抓手艺,是个狠人。那几年把集团的数字化底座整得风生水起。

展开全文

去年起头,集团要鼎力开展 「AI营业」,老刘力排寡议, 坚定本身搞AI平台。

为啥要【自建AI平台】呢?

老刘心里想得很大白↓

1、前几年云化项目本身搞得很胜利,虚拟化、容器化已经积累了很多经历, 区区一个AI平台,没问题。

2、那一次,抓住时机,要再展现一下根底架构部的实力,提拔话语权。

在落地施行上,老刘也有蜜汁自信↓

AI框架什么的都是现成的,底层Driver什么的有原厂撑持,搬砖的事儿代办署理商也能帮一把。

于是,把预算、做计划、招投标、交付上线,一切都根据老刘料想的那样开整了。

成果……成果……

比及上线,营业部分一提需求,老刘彻底方了, 就呈现了起头那一幕。

先把隔邻的研发兄弟得功了

更先“造反”的研发部分,把老刘逼“哭”了10次。

研发中默算法部,每个算法工程师都要一台“机器”(独占一块GPU卡),加小我就要加设备是老例。

但是老刘发现,算法工程师良多时间是在调整参数和修改模子( 那时候"挂"着GPU,属于占着茅坑不拉

)。只要停止模子训练的时候,才需要GPU参与运算。

每个 研发的使命也不是严酷排满的,但分配下去的“独占”资本却不克不及释放出来复用。

成果,固然老刘此次买了很多GPU Server,可是那个“独占”形式却形成双向浪费。

有的GPU明明闲着,却被占用锁定,有的开发人员苦等GPU资本,也只能闲着。

整体的研发进度大受影响,于是老刘部分收到赞扬不竭。

有人说,资本申请不到,研发多摸会儿🐟,他们莫非不高兴么?怎么还会赞扬?!

然而本相是,集团营业赚钱不容易,研发投入却越来越大。因而,集团十分重视查核研发成本。

而如今可倒好,一个Q下来,分摊到研发的GPU占用成本,大幅增加,严峻影响了算法部的绩效。

研发总监也坐不住了,向老刘吐槽,严峻量疑他们根底架构部的才能!

一波未平,一波又起

下半年,公司新成立了一个战略营业部分: 主动驾驶部,那是公司当下最重要的探路营业,估计将来独立上市。

主动驾驶部分的算法仿实营业需要消耗大量GPU算力资本,老刘划拨了一大票办事器给他们。

老刘本认为,仿实营业属于重载应用,不存在“峰谷”,此次GPU必然能物尽其用,根底架构部也能够一雪前耻。

可是运行一段时间后,老刘被揪去看监控,成果很让人瓦解。

那些办事器的CPU都跑满了,可是GPU的操纵率却只要12.5%,本来仿实模子需要大量CPU资本做预处置。

CPU不敷用了,GPU空有一身气力也使不上,招致效率低下,只能再划拨办事器来填补CPU算力。

类似的,还有些场景,GPU跑满,但CPU却闲得蛋疼,在资本操纵率上,老是没法拉通和对齐。

看到那种成果,老刘更方了。

本来 根底研发那边就已经让他满头包了,如今 主动驾驶那边又添了更大的堵。上上下下都对他们根底架构部的工做不满意。

老刘的“后院”也起火了…

被兄弟部分赞扬还不算完,老刘本身部分,自从接了那个AI算力平台的锅,那可算遭了大功。

每天办公室的场景实是美如画

既要处置日常的资本审批、调配、监控、排错、办理,还要搞定底层Driver、搞定CUDA等各类API、搞定AI框架,其实太煎熬了,天天加班,人手完全不敷。

并且老板还给老刘提了新要求,要撑持异构算力芯片,确保供给链平安…

“内忧外患”之下,老刘实是觉得本身满头包了,懊悔本身当初选了自建,本来想掌控一切,成果一切都在失控……

问题其实太多了,哭18次都不敷~

我认为老刘就会如许不断哭下去,究竟结果那些问题都很棘手,短期内很难处理。

本身挖的坑,含着泪也要填完。

可是,比来去见老刘,发现老刘已经不“哭”了!

为啥?

本来他已经找到了完美的处理计划,那就是GPU池化。

GPU池化不就是把几块显卡虚拟化一下?能治老刘的病?

认真一聊才晓得,老刘痛定思痛,把市道上的GPU池化手艺都研究透了,本来那手艺分为4个Level👇🏻

物理GPU根据固定比例切分,算力和显存资本为独占形式,资本无法动态调整。

物理GPU撑持从算力和显存两个维度肆意切分,资本动态共享,动态调整。

撑持AI负载与物理GPU别离摆设,AI应用摆设在肆意位置,通过收集长途挪用。

撑持①②③所有才能,同时具备同一的GPU资本调度办理监控平台,虚拟GPU按需调度,动态伸缩。

救老刘于水火的,恰是那种更高Level的 「GPU资本池化」。

老刘没有增加任何新硬件、新GPU采购,只是用了一款AI算力资本池化软件,就化陈旧迂腐为神异了。

那款软件,叫做 OrionX,我来先晒一下整体架构。

先看更底层,对异构物理卡的池化才能,以前,老赵的那些卡“各自为战”,忙的忙死,闲的闲死。

如今,遵从 OrionX的同一批示,酿成一个大的GPU虚拟化资本池,撑持肆意配比的GPU切分和聚合,同时,还撑持多种“GPU”异构成池(GPU、FPGA、ASIC),整体调度和监控。

当然,光切分、重组、成池还不敷,上层AI工做负载想要利用那些算力,还需要通过API,那方面 OrionX早帮各人安放好了,用N卡的,就拿CUDA对接,若是用国产信创芯片,那供给信创框架来对接。

并且,OrionX也在不竭进化,将来若是算力池还有其他异构硬件参加,就会对应引入API来对接,完全不需要用户本身费心搞东搞西。

再往上,就进入了AI的详细搬砖流程,也就是 AI框架,那决定了若何封拆算法,若何挪用数据,若何利用算力资本,还要面向开发者的开发界面、施行平台。

OrionX预置了对支流AI框架的撑持,无论TensorFlow仍是Pytorch,或者国产的PaddlePaddle等,开发者们能够根据爱好,去利用本身熟悉的框架来完成训练。

在最上面一层,就是各类各样的行业应用,机器视觉、天然语言处置、主动驾驶仿实、跨媒体推理……,不管需求若何改变,资本池都能够灵敏调整应对。

详细到现实落地, OrionX能够一口气甩出六种招式,把各类GPU的资本拆散、揉碎、重组……,同一调度,或当地、或长途,打出各类组合拳。

好比第一招「 隔空取物」,其实就是虚拟GPU资本的长途挪用。消弭时间上和空间上的限造,更大化操纵率。

老刘之前主动驾驶新营业部分的“ CPU累死GPU躺平”问题:操纵池化手艺解耦摆设,然后「隔空取物」实现长途挪用,完美处理。

详细说,之前在主动驾驶部分,申请一多量物理资本,CPU和GPU的配比是当地化绑死的,成果招致预处置时CPU被跑满,GPU闲暇,不只效率低,资本严峻浪费。

如今那些资本完全能够动态申请,既然CPU不敷用,那就多划拨CPU用于仿实预处置,但是不消担忧GPU也被绑死,GPU的实在才能还在“大池子里”,能够召之则来、挥之则去。

而在费用核算上,也不消像以前,计算人家抱走了几台GPU Server(老贵了),只需要根据现实占用的算力资本来核算成本,仿实效率杠杠的,成本也大幅节省。

本来研发中默算法部分的问题,通过 OrionX也能够迎刃而解。

使出「 化整为零」那一招, 用池化计划再连系jupyterlab研发计划和才能,通过切分、复用、优先级等池化功用(调度、监控、收受接管),把资本用到极致。

本来一个研发资本池资本缩减70%,仍然可以称心需求,并且,开发人员不空等,算力资本不空转,谁都不会耽搁谁。

同时, OrionX对一些极端场景撑持也是极好的,好比碰到多机多卡散布式使命,基于「 化零为整」的资本聚合,以及早已做好适配的框架,研发不需要花大量时间定造框架,就能快速上手。

有时候开发者施行差别使命时候,需要差别才能的虚拟GPU, OrionX的「 随需应变」招式,能够让那个算力自在缩扩,不需要重启期待,就能够换“策动机”。

再好比在某些场景,需要为每个虚拟GPU设置装备摆设大量显存,此时,用「 显存扩展」的招式,挪用内存资本来当显存用,毫无违和感。

「六脉神剑」的招式再精妙,还需要“内功”加持才气施展出来,而那个内功,就是池化调度和运维办理,能够让资本更高效的利用,也让关键营业得到更好的保障。

如许,不只营业部分的绩效提拔了,老刘部分的兄弟们,运维压力也大大减轻了。

各人不需要为日常资本办理、晋级、扩容、调度的工作费心,OrionX能够统管全局,营业部分按需自主申请就行。

并且, OrionX除了对各类AI框架的兼容和优化,对K8S容器情况、KVM虚拟化情况也停止了高效整合,而且完美撑持RDMA收集,停止了大量性能优化,确保虚拟GPU的性能与物理GPU媲美。

老刘对当地虚拟GPU和长途虚拟GPU的表示,相当满意,他们还做了个测试,完全不输于物理GPU。

并且,虚拟GPU通过组合和叠加,能供给更强更灵敏的战斗力。

自从用了 OrionX,老刘头也不疼了,心也不塞了,做梦城市笑醒。

并且,老刘越用越有心得,基于 OrionX又做了些新规划,根据大老板的要求,引入国产信创芯片,做算力异构,确保供给链平安,同时老刘看到OrionX还撑持大都据中心和多云架构。

于是,他有了更斗胆的规划…

以上就是老刘和GPU离合悲欢故事。

那么那个叫做OrionX的神器,事实是谁家造出来的呢?

OrionX的创作发明者,叫做 趋动科技,是国内软件定义AI算力手艺指导者,供给专业的GPU资本池化软件处理计划。

OrionX是趋动科技的招牌产物,能够搀扶帮助客户快速构建当地化的AI算力资本池,只需要一套软件,不管当地是K8S云原生情况仍是传统虚拟化情况,都能够软件定义,快速池化。

凭仗原则化、可复造的产物架构,趋动科技得到了包罗互联网、金融、电信运营商、科研机构和高校等大量行业头部客户的承认。

除了供给GPU资本池化软件OrionX以外,趋动科技刚刚又放了一个大招。

基于OrionX的核心才能,趋动科技推出了业内首个AI算力池化云办事——趋动云VirtAI Cloud

有了趋动云,不但企业能够受益,小我开发者能够按需利用,AI算力资本立等可取,不会受造于高贵以至花钱也买不到的高端GPU。

据测算,比照典型的公有云GPU资本价格,接纳趋动云能够节省80%以上的成本。

看吧,那庞大的省钱优势,让老刘都坐不住了,决定公司最新一批弹性算力的需求,全数All in 到 趋动云上去。

并且,趋动云还推出了出格优惠:只要注册就能够领取2888元算力金+镭射单肩包,超低成本体验开箱即用的AI开发与训练办事。

速速扫码来抢吧

0
回帖

买了GPU后,我哭了18次… 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息