可问答综合买了GPU后，我哭了18次…

买了GPU后，我哭了18次…

3周前 (11-16 04:10)阅读1回复0

丸子

管理员
注册排名9
经验值60675
级别管理员
主题12135
回复0

楼主

回想几个月前，GPU 办事器批量上架的那一刻，老刘心里仍是气呼呼的。

可千万没想到！

GPU办事器买进来，营业部分一提需求，老刘急哭了18次。

一次比一次哭声大！

工作原委是酱婶儿的

老刘（刘宇），是某大甲方信息中心根底架构部的副总，主抓手艺，是个狠人。那几年把集团的数字化底座整得风生水起。

展开全文

去年起头，集团要鼎力开展「AI营业」，老刘力排寡议，坚定本身搞AI平台。

为啥要【自建AI平台】呢？

老刘心里想得很大白↓

1、前几年云化项目本身搞得很胜利，虚拟化、容器化已经积累了很多经历，区区一个AI平台，没问题。

2、那一次，抓住时机，要再展现一下根底架构部的实力，提拔话语权。

在落地施行上，老刘也有蜜汁自信↓

AI框架什么的都是现成的，底层Driver什么的有原厂撑持，搬砖的事儿代办署理商也能帮一把。

于是，把预算、做计划、招投标、交付上线，一切都根据老刘料想的那样开整了。

成果……成果……

比及上线，营业部分一提需求，老刘彻底方了，就呈现了起头那一幕。

先把隔邻的研发兄弟得功了

更先“造反”的研发部分，把老刘逼“哭”了10次。

研发中默算法部，每个算法工程师都要一台“机器”（独占一块GPU卡），加小我就要加设备是老例。

但是老刘发现，算法工程师良多时间是在调整参数和修改模子（那时候"挂"着GPU，属于占着茅坑不拉

）。只要停止模子训练的时候，才需要GPU参与运算。

每个研发的使命也不是严酷排满的，但分配下去的“独占”资本却不克不及释放出来复用。

成果，固然老刘此次买了很多GPU Server，可是那个“独占”形式却形成双向浪费。

有的GPU明明闲着，却被占用锁定，有的开发人员苦等GPU资本，也只能闲着。

整体的研发进度大受影响，于是老刘部分收到赞扬不竭。

有人说，资本申请不到，研发多摸会儿🐟，他们莫非不高兴么？怎么还会赞扬？！

然而本相是，集团营业赚钱不容易，研发投入却越来越大。因而，集团十分重视查核研发成本。

而如今可倒好，一个Q下来，分摊到研发的GPU占用成本，大幅增加，严峻影响了算法部的绩效。

研发总监也坐不住了，向老刘吐槽，严峻量疑他们根底架构部的才能！

一波未平，一波又起

下半年，公司新成立了一个战略营业部分：主动驾驶部，那是公司当下最重要的探路营业，估计将来独立上市。

主动驾驶部分的算法仿实营业需要消耗大量GPU算力资本，老刘划拨了一大票办事器给他们。

老刘本认为，仿实营业属于重载应用，不存在“峰谷”，此次GPU必然能物尽其用，根底架构部也能够一雪前耻。

可是运行一段时间后，老刘被揪去看监控，成果很让人瓦解。

那些办事器的CPU都跑满了，可是GPU的操纵率却只要12.5%，本来仿实模子需要大量CPU资本做预处置。

CPU不敷用了，GPU空有一身气力也使不上，招致效率低下，只能再划拨办事器来填补CPU算力。

类似的，还有些场景，GPU跑满，但CPU却闲得蛋疼，在资本操纵率上，老是没法拉通和对齐。

看到那种成果，老刘更方了。

本来根底研发那边就已经让他满头包了，如今主动驾驶那边又添了更大的堵。上上下下都对他们根底架构部的工做不满意。

老刘的“后院”也起火了…

被兄弟部分赞扬还不算完，老刘本身部分，自从接了那个AI算力平台的锅，那可算遭了大功。

每天办公室的场景实是美如画

既要处置日常的资本审批、调配、监控、排错、办理，还要搞定底层Driver、搞定CUDA等各类API、搞定AI框架，其实太煎熬了，天天加班，人手完全不敷。

并且老板还给老刘提了新要求，要撑持异构算力芯片，确保供给链平安…

“内忧外患”之下，老刘实是觉得本身满头包了，懊悔本身当初选了自建，本来想掌控一切，成果一切都在失控……

问题其实太多了，哭18次都不敷~

我认为老刘就会如许不断哭下去，究竟结果那些问题都很棘手，短期内很难处理。

本身挖的坑，含着泪也要填完。

可是，比来去见老刘，发现老刘已经不“哭”了！

为啥？

本来他已经找到了完美的处理计划，那就是GPU池化。

GPU池化不就是把几块显卡虚拟化一下？能治老刘的病？

认真一聊才晓得，老刘痛定思痛，把市道上的GPU池化手艺都研究透了，本来那手艺分为4个Level👇🏻

物理GPU根据固定比例切分，算力和显存资本为独占形式，资本无法动态调整。

物理GPU撑持从算力和显存两个维度肆意切分，资本动态共享，动态调整。

撑持AI负载与物理GPU别离摆设，AI应用摆设在肆意位置，通过收集长途挪用。

撑持①②③所有才能，同时具备同一的GPU资本调度办理监控平台，虚拟GPU按需调度，动态伸缩。

救老刘于水火的，恰是那种更高Level的「GPU资本池化」。

老刘没有增加任何新硬件、新GPU采购，只是用了一款AI算力资本池化软件，就化陈旧迂腐为神异了。

那款软件，叫做 OrionX，我来先晒一下整体架构。

先看更底层，对异构物理卡的池化才能，以前，老赵的那些卡“各自为战”，忙的忙死，闲的闲死。

如今，遵从 OrionX的同一批示，酿成一个大的GPU虚拟化资本池，撑持肆意配比的GPU切分和聚合，同时，还撑持多种“GPU”异构成池（GPU、FPGA、ASIC），整体调度和监控。

当然，光切分、重组、成池还不敷，上层AI工做负载想要利用那些算力，还需要通过API，那方面 OrionX早帮各人安放好了，用N卡的，就拿CUDA对接，若是用国产信创芯片，那供给信创框架来对接。

并且，OrionX也在不竭进化，将来若是算力池还有其他异构硬件参加，就会对应引入API来对接，完全不需要用户本身费心搞东搞西。

再往上，就进入了AI的详细搬砖流程，也就是 AI框架，那决定了若何封拆算法，若何挪用数据，若何利用算力资本，还要面向开发者的开发界面、施行平台。

OrionX预置了对支流AI框架的撑持，无论TensorFlow仍是Pytorch，或者国产的PaddlePaddle等，开发者们能够根据爱好，去利用本身熟悉的框架来完成训练。

在最上面一层，就是各类各样的行业应用，机器视觉、天然语言处置、主动驾驶仿实、跨媒体推理……，不管需求若何改变，资本池都能够灵敏调整应对。

详细到现实落地， OrionX能够一口气甩出六种招式，把各类GPU的资本拆散、揉碎、重组……，同一调度，或当地、或长途，打出各类组合拳。

好比第一招「隔空取物」，其实就是虚拟GPU资本的长途挪用。消弭时间上和空间上的限造，更大化操纵率。

老刘之前主动驾驶新营业部分的“ CPU累死GPU躺平”问题：操纵池化手艺解耦摆设，然后「隔空取物」实现长途挪用，完美处理。

详细说，之前在主动驾驶部分，申请一多量物理资本，CPU和GPU的配比是当地化绑死的，成果招致预处置时CPU被跑满，GPU闲暇，不只效率低，资本严峻浪费。

如今那些资本完全能够动态申请，既然CPU不敷用，那就多划拨CPU用于仿实预处置，但是不消担忧GPU也被绑死，GPU的实在才能还在“大池子里”，能够召之则来、挥之则去。

而在费用核算上，也不消像以前，计算人家抱走了几台GPU Server（老贵了），只需要根据现实占用的算力资本来核算成本，仿实效率杠杠的，成本也大幅节省。

本来研发中默算法部分的问题，通过 OrionX也能够迎刃而解。

使出「化整为零」那一招，用池化计划再连系jupyterlab研发计划和才能，通过切分、复用、优先级等池化功用（调度、监控、收受接管），把资本用到极致。

本来一个研发资本池资本缩减70%，仍然可以称心需求，并且，开发人员不空等，算力资本不空转，谁都不会耽搁谁。

同时， OrionX对一些极端场景撑持也是极好的，好比碰到多机多卡散布式使命，基于「化零为整」的资本聚合，以及早已做好适配的框架，研发不需要花大量时间定造框架，就能快速上手。

有时候开发者施行差别使命时候，需要差别才能的虚拟GPU， OrionX的「随需应变」招式，能够让那个算力自在缩扩，不需要重启期待，就能够换“策动机”。

再好比在某些场景，需要为每个虚拟GPU设置装备摆设大量显存，此时，用「显存扩展」的招式，挪用内存资本来当显存用，毫无违和感。

「六脉神剑」的招式再精妙，还需要“内功”加持才气施展出来，而那个内功，就是池化调度和运维办理，能够让资本更高效的利用，也让关键营业得到更好的保障。

如许，不只营业部分的绩效提拔了，老刘部分的兄弟们，运维压力也大大减轻了。

各人不需要为日常资本办理、晋级、扩容、调度的工作费心，OrionX能够统管全局，营业部分按需自主申请就行。

并且， OrionX除了对各类AI框架的兼容和优化，对K8S容器情况、KVM虚拟化情况也停止了高效整合，而且完美撑持RDMA收集，停止了大量性能优化，确保虚拟GPU的性能与物理GPU媲美。

老刘对当地虚拟GPU和长途虚拟GPU的表示，相当满意，他们还做了个测试，完全不输于物理GPU。

并且，虚拟GPU通过组合和叠加，能供给更强更灵敏的战斗力。

自从用了 OrionX，老刘头也不疼了，心也不塞了，做梦城市笑醒。

并且，老刘越用越有心得，基于 OrionX又做了些新规划，根据大老板的要求，引入国产信创芯片，做算力异构，确保供给链平安，同时老刘看到OrionX还撑持大都据中心和多云架构。

于是，他有了更斗胆的规划…

以上就是老刘和GPU离合悲欢故事。

那么那个叫做OrionX的神器，事实是谁家造出来的呢？

OrionX的创作发明者，叫做趋动科技，是国内软件定义AI算力手艺指导者，供给专业的GPU资本池化软件处理计划。

OrionX是趋动科技的招牌产物，能够搀扶帮助客户快速构建当地化的AI算力资本池，只需要一套软件，不管当地是K8S云原生情况仍是传统虚拟化情况，都能够软件定义，快速池化。

凭仗原则化、可复造的产物架构，趋动科技得到了包罗互联网、金融、电信运营商、科研机构和高校等大量行业头部客户的承认。

除了供给GPU资本池化软件OrionX以外，趋动科技刚刚又放了一个大招。

基于OrionX的核心才能，趋动科技推出了业内首个AI算力池化云办事——趋动云VirtAI Cloud

有了趋动云，不但企业能够受益，小我开发者能够按需利用，AI算力资本立等可取，不会受造于高贵以至花钱也买不到的高端GPU。

据测算，比照典型的公有云GPU资本价格，接纳趋动云能够节省80%以上的成本。

看吧，那庞大的省钱优势，让老刘都坐不住了，决定公司最新一批弹性算力的需求，全数All in 到趋动云上去。

并且，趋动云还推出了出格优惠：只要注册就能够领取2888元算力金+镭射单肩包，超低成本体验开箱即用的AI开发与训练办事。

速速扫码来抢吧

空包代理

回帖 场均12分9板，联盟第一！杜兰特收获最佳搭档，哈登真没看错人 华贸物流拿下比亚迪亿元合同！中远海控供应链物流事业部正式运营

买了GPU后，我哭了18次… 期待您的回复！

取消

买了GPU后，我哭了18次…

买了GPU后，我哭了18次… 期待您的回复！

插入网络图片