用BT下载的体例在家跑千亿大模子，推理/微调速度10倍提拔

2周前 (02-13 03:46)阅读1回复0

小强

管理员
注册排名8
经验值130130
级别管理员
主题26026
回复0

楼主

鱼羊发自凹非寺

量子位 | 公家号 QbitAI

在家用消费级GPU就能跑1760亿参数大模子，推理微调都很快。

仍是用 BT下载的体例实现。

那事儿可把AI喜好者们别致坏了。

那不，那个名为 PETALS的项目刚开源没多久，GitHub标星数就到达了1.3k。

老司机们都晓得，BT下载那玩意儿，下载统一个文件的人越多，那个文件的下载速度就越快，因为每个下载用户城市成为一个“资本节点”，互通有无。

PETALS事理差不多，就是把各人伙的GPU都操纵起来，协同推理/微调统一个大模子。

用上它，你的GPU现实上只需要加载大模子的一小部门，就能把模子跑起来，速度还嘎嘎快：

推理速度能到达1秒/token，比offloading的体例快10倍。

offloading是通过进步GPU操纵率，加速模子操练的一种办法，

什么是PETALS

详细来说，PETALS来自BigScience那个科研协做项目。此前人人皆可用的1760亿参数开源大模子 BLOOM也来自于该项目。

至于PETALS详细是怎么个用法，先来看看下面那个例子：

张三想基于BLOOM搞个懂法语的语言大模子，而李四则想微调BLOOM让它学会C++编程。

虽然使命差别，但两者涉及的一些步调却是共通的。

此时包罗张三李四在内的PETALS用户们，自个儿的GPU里已别离加载好了模子的一部门（子集）。

于是，张三和李四就能够通过收集逃求其他用户的搀扶帮助，操纵他人已经拥有的模子子集，在最短时间内对BLOOM停止微调。同时，他们GPU上的模子资本也会被其他用户操纵。

展开全文

现实的操做过程中，PETALS的每个参与者，城市通过当地设备运行一个办事器/客户端，或者两者兼具。

办事器包罗模子层子集，凡是是Transformer块。同时，办事器会处置来自客户端的恳求。

客户端则会构成以流水线形式并行的连续串办事器，来运行整个模子的推理/微调。

值得一提的是，微调后的子模子能够在模子中心共享，陆续提赐与其别人利用。

此外，为了进步散布式推理的性能，开发人员们还摘取了以下战略：

动态量化，使每个GPU存储更多参数，削减持续设备和通信回合的数量；

优先考虑低延迟毗连，即每个客户端优先考虑间隔近的办事器；

办事器之间的负载平衡。

在那些优化办法的根底之上，研究人员证明，千亿参数级此外模子能够基于PETALS有效运行。

对了，假设你感兴致，还能够间接在官方供给的Colab链接上试玩一下，地址文末送上~

关于BigScience

前文说到，PETALS是BigScience项目标一部门。

BigScience是一个开放科学协做方案，旨在突破科技巨头对AI资本的垄断。

此前，在HuggingFace、法国国度大型计算中心等机构的牵头之下，BigScience会聚来自60个国度和250多个机构的1000多名研究人员，一路搞出了“人人可用”、从代码到数据集统统开源的BLOOM语言大模子。

BLOOM有1760亿参数，撑持59种语言，是目前更大的多语种开源语言模子。

目前，PETALS次要撑持的就是BLOOM。不外开发人员表达，将来还将撑持更多根底模子。

Colab地址：

— 完—

「人工智能」、「智能汽车」微信社群邀你加进！

欢送存眷人工智能、智能汽车的小伙伴们加进交换群，与AI从业者交换、商讨，不错过最新行业开展手艺停顿。

PS. 加老友请务必备注您的姓名-公司-职位噢 ~

点那里 👇存眷我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿停顿日日相见 ~

土巴兔模型下载

回帖 道路根底设备的建筑信息模子（BIM）：TEM 要乞降定见（英）（附下载） 电池收受接管系列专题，电池收受接管成本和盈利拆分模子（附下载）

用BT下载的体例在家跑千亿大模子，推理/微调速度10倍提拔期待您的回复！

取消

用BT下载的体例在家跑千亿大模子，推理/微调速度10倍提拔

用BT下载的体例在家跑千亿大模子，推理/微调速度10倍提拔 期待您的回复！

插入网络图片

用BT下载的体例在家跑千亿大模子，推理/微调速度10倍提拔期待您的回复！