鱼羊 发自 凹非寺
量子位 | 公家号 QbitAI
在家用 消费级GPU就能跑1760亿参数大模子,推理微调都很快。
仍是用 BT下载的体例实现。
那事儿可把AI喜好者们别致坏了。
那不,那个名为 PETALS的项目刚开源没多久,GitHub标星数就到达了1.3k。
老司机们都晓得,BT下载那玩意儿,下载统一个文件的人越多,那个文件的下载速度就越快,因为每个下载用户城市成为一个“资本节点”,互通有无。
PETALS事理差不多,就是把各人伙的GPU都操纵起来,协同推理/微调统一个大模子。
用上它,你的GPU现实上只需要加载大模子的一小部门,就能把模子跑起来,速度还嘎嘎快:
推理速度能到达1秒/token,比offloading的体例快10倍。
offloading是通过进步GPU操纵率,加速模子操练的一种办法,
什么是PETALS
详细来说,PETALS来自BigScience那个科研协做项目。此前人人皆可用的1760亿参数开源大模子 BLOOM也来自于该项目。
至于PETALS详细是怎么个用法,先来看看下面那个例子:
张三想基于BLOOM搞个懂法语的语言大模子,而李四则想微调BLOOM让它学会C++编程。
虽然使命差别,但两者涉及的一些步调却是共通的。
此时包罗张三李四在内的PETALS用户们,自个儿的GPU里已别离加载好了模子的一部门 (子集)。
于是,张三和李四就能够通过收集逃求其他用户的搀扶帮助,操纵他人已经拥有的模子子集,在最短时间内对BLOOM停止微调。同时,他们GPU上的模子资本也会被其他用户操纵。
展开全文
现实的操做过程中,PETALS的每个参与者,城市通过当地设备运行一个办事器/客户端,或者两者兼具。
办事器包罗模子层子集,凡是是Transformer块。同时,办事器会处置来自客户端的恳求。
客户端则会构成以流水线形式并行的连续串办事器,来运行整个模子的推理/微调。
值得一提的是,微调后的子模子能够在模子中心共享,陆续提赐与其别人利用。
此外,为了进步散布式推理的性能,开发人员们还摘取了以下战略:
动态量化,使每个GPU存储更多参数,削减持续设备和通信回合的数量;
优先考虑低延迟毗连,即每个客户端优先考虑间隔近的办事器;
办事器之间的负载平衡。
在那些优化办法的根底之上,研究人员证明,千亿参数级此外模子能够基于PETALS有效运行。
对了,假设你感兴致,还能够间接在官方供给的Colab链接上试玩一下,地址文末送上~
关于BigScience
前文说到,PETALS是BigScience项目标一部门。
BigScience是一个开放科学协做方案,旨在突破科技巨头对AI资本的垄断。
此前,在HuggingFace、法国国度大型计算中心等机构的牵头之下,BigScience会聚来自60个国度和250多个机构的1000多名研究人员,一路搞出了“人人可用”、从代码到数据集统统开源的BLOOM语言大模子。
BLOOM有1760亿参数,撑持59种语言,是目前更大的多语种开源语言模子。
目前,PETALS次要撑持的就是BLOOM。不外开发人员表达,将来还将撑持更多根底模子。
Colab地址:
— 完—
「人工智能」、「智能汽车」微信社群邀你加进!
欢送存眷人工智能、智能汽车的小伙伴们加进交换群,与AI从业者交换、商讨,不错过最新行业开展手艺停顿。
PS. 加老友请务必备注您的姓名-公司-职位噢 ~
点那里 👇存眷我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿停顿日日相见 ~