阿里“通义”大模子炸场WAIC,背后要从一篇论文讲起

1年前 (2022-11-25)阅读2回复1
niannian
niannian
  • 管理员
  • 注册排名10
  • 经验值169635
  • 级别管理员
  • 主题33927
  • 回复0
楼主

杨净 萧箫 发自 凹非寺

阿里“通义”大模子炸场WAIC,背后要从一篇论文讲起

量子位 | 公家号 QbitAI

“手艺道路全公开,核心模子开源开放,应用场景200多个……”

在大模子那块,阿里间接在WAIC上憋了个大的——

通义大模子系列。

手艺上,不但在NLP等单模态场景实现SOTA,许多多模态使命也实现了引领。

好比VQA challenge第一,准确率首超人类表示:

展开全文

更硬核的是国内首个“同一底座”,业界初次实现模态表达、使命表达、模子构造同一。

不引入新增构造,单一模子就能够同时处置超越10项跨模态使命,晋级后能够处置超越30种。

落地应用上,更是已经深切到电商、设想、医疗、法令、金融等行业,办事超越200个场景。

间接看文生图创做,中国风、科幻风、片子感、游戏场景、反现实风……全都不在话下。

资本消耗相对也不高,以通义系列中的M6大模子为例,不异参数规模下训练能耗仅是GPT-3的1%。

在落地层面,此次阿里也推出了新的手艺框架,削减了大模子利用时的算力消耗,运行可提速10倍。

归纳综合起来就是,既 通用多种使命,又 容易落地应用。

要晓得,大模子落地几乎是行业公认的难题,“通用”良多时候意味着“大而全”,效率经常就跟不上。

而此次,阿里提出了同一底座+模子系统的手艺道路,一言蔽之,就是“大一统”+“条理化”。不论是通用性仍是易用性,都要做到极致。

那背后事实有着什么样的底气?

“大一统”手艺,什么来头?

谜底早就藏在达摩院发布的一系列大模子论文里。

此中有一篇关键论文,就是通义大模子背后的 核心手艺支持——同一进修范式OFA。

以那篇论文为手艺底座,通义大模子实正具备了能搞定多种使命的“大一统”才能,变得既通用又易用:

不引入新增构造,单一模子即可同时处置图像描述、视觉定位、文生图、视觉蕴含、文档摘要等10余项单模态和跨模态使命,效果都很不错;晋级后更是能够处置超越包罗语音和动做在内的 30多种跨模态使命。

那里“大一统”手艺的关键,在于提出并实现了三个“同一”:

架构同一 。利用Transformer (encoder-decoder,编解码器) 架构,同一停止预训练和微调,无需在应对差别使命时,增加任何特定的模子层。

模态同一 。不论是NLP、CV那种单模态,仍是图文等多模态使命,全都接纳统一个框架和训练构想。

使命同一 。将所有单模态、多模态使命同一表达成序列到序列 (Seq2seq) 生成的形式,同类使命的输入几乎就是“一个模型里刻出来的”。

基于那一构想,模子基于2000万个图像-文本对停止预训练,就达成了多个 跨模态使命 (图像生成、视觉定位、图像阐明、图像分类等) 的SOTA,同时 单模态使命的程度也与行业领先八两半斤。

乍一看,那种“大一统”的构想,似乎与刚刚新颖出炉的微软“六边形兵士”BEiT-3理念上不约而合,但其实两者之间存在素质差别,加上OFA最早在本年2月就已露出苗头,也不存在数据上的可比性。

微软BEiT-3在收集架构、预训练办法、规模效应 (19亿数量级参数) 上实现了“大一统”,它接纳的体例是和下流使命解耦,可灵敏按需定造开发,性能表示凸起。

而OFA考虑的是另一种构想—— Task Scaling First,使命规模优先。让单一模子能做尽可能多的跨模态使命,如许预训练后不新增构造,就能间接鄙人游使命中利用。

模子一共利用了8个使命 (含子使命共15个) 停止预训练,并固定每一类使命的发问体例 (输入) 和获取目的 (输出) :

就连输入和输出的格局都给你规定好了,不管文字、图片仍是鸿沟框,只能用一种体例做答:

如许一来,大模子看到 特定格局的问题就晓得要怎么答,就像你看到做文框“口口”就晓得往里面填字,看到数学题就想写“解”。

最关键的是,那种大模子理论上具备 可扩展的才能,就像人一样能够学到越来越多的使命模子,掌握越来越多的做题办法。

至于那些使命是什么模态?其实不会对模子产生影响,看到输入晓得怎么输出就行了。

当然,在扩大使命规模时,也可能会碰到间接增加使命数量,招致模子输出效果降低等情状。

因而,若何更好地设想使命分组、找到适宜的指令模板,也是在将来继续扩大使命规模时需要考虑的问题,而那也是研究小组下一步的方案。

但话又说回来,如许的“大一统”手艺,现实落地表示事实若何?

在“大模子落地难”那一行业公认现状的当下,它能否实的翻开了大模子 贸易化应用的打破口?

落地场景200+,核心东西均开源

大模子落地难的原因,凡是有两个。

其一, 利用成本太高。以往关于预训练大模子来说,即便微调,依赖的底层资本也不低,若是对效果有进一步要求,则需要继续提拔训练数据规模,成本还会进一步提拔。

其二, 落地效果有限。关于部门应用场景而言,大模子并非一个性价比高的选择,现实利用时为了摆设到特定设备上,往往需要模子压缩,招致性能下降明显。

但据介绍,阿里推出的 通义大模子,在电商跨模态搜刮、AI辅助设想、法令文书进修、医疗文本理解、开放域人机对话等200多个场景中应用落地时,均到达了 2%~10%的效果提拔。

那是怎么做到的?阿里接纳了两种办法。

一方面,基于“大一统”构想做出通用大模子,再连系行业常识削减标注成本。

以法令场景为例,此前阿里已经与浙江省高院、浙江大学结合推出了一个能全流程辅助法官审讯的AI,目前适用案件到达5000+,搀扶帮助法官提拔效率到达40%。

那只法令AI实现了“10案连审”的才能,即在30分钟的开庭时间内,辅助法官持续审理10个简单案例,极大地提拔了那一流程的效率。

如今,那只AI,已经基于通用大模子+行业knowhow的构想停止迭代。通用大模子基于“大一统”手艺,预训练时就已经具备了很强的理解和生成才能,只需再针对特定使命停止简单微调。

以AI进修法令文书时需要完成的“要素化抽取”为例,那里需要AI从大量的电子卷宗中提取有效信息,好比原被告信息、事务描述等,此中涉及的文本理解与抽取才能,就属于通用大模子的才能强项内。

另一方面,研发出多种高量量的大模子“浓缩”手艺,能够根据客户的资本情状做快速适配,降低大模子落地的困难。

例如达摩院推出的大模子落地手艺S4 (Sound、Sparse、Scarce、Scale) 框架,就包罗了各类微调算法和模子压缩算法,素质上是希望将 稀少化等手艺应用到到百亿量级的大模子中。

基于那一手艺,阿里的270亿参数语言大模子PLUG在压缩率达99%的情状下,多项使命的精度丧失在1%以内。

那意味着 百亿参数大模子也可能在几乎不丧失精度的情状下停止稀少化,最末实现 单卡运行。

值得一提的是,无论是此次发布的多模态同一底座模子 M6-OFA,仍是超大模子落地关键手艺 S4框架,又或是之前发布的通义语言大模子AliceMind-PLUG、多模态理解与生成同一模子AliceMind-mPLUG等核心才能, 均已全数开源。

但即使具备将通用大模子落地的手艺实力,仍然绕不外一个最底子的问题:

为何阿里要选择“大一统”那条手艺道路?

激发大模子“通用”的潜力

一方面,通用大模子不断是行业研究趋向之一。

尤其是多模态多使命手艺,比来更是成为一波研究潮水,不只谷歌和DeepMind接连提出Pathway和Flamingo等多使命多模态通用大模子,艾伦人工智能研究所不断在做相关手艺,就连微软前段时间“东山再起”的BEiT-3也在延续那一构想。

无论是加强模子的“使命意识”,仍是做多模态大模子,素质都是 希望能发掘出大模子更“通用”的潜力。

另一方面,多模态大模子自己也是趋向之一,它更有可能模仿人类构建认知的过程。

业界目前有一类十分时髦的概念,认为纯LM (语言模子) 相关的预训练模子,间隔所谓的人类智能,就不是一个完全准确的道路。

正如人类无法仅从语言中学到整个世界的构造一样,AI也必需有才能从图片、文字甚至视频音频等多模态混合的数据中学到模态之间的联系关系,才可能进一步加强对世界的认知。

那恰是模子从感知智能到认知智能的关键一步。

回望大模子开展过程,从BERT至今已颠末了很长一段路,但达摩院资深算法专家黄松芳认为,AI间隔AGI照旧还有很长的路要走:

各人都希望AI系统越来越接近通用或是人类智能,但说实话从手艺现状来看,仍是有很长一段间隔。

此次提出的通义大模子,也是希望可以把底座做得更实,尽可能削减AI模子在现实场景落地的定造化成本,那才气实正表现大模子的效果,说实话那也是整个AI落地应用更具挑战性的一点。

各人都希望AI系统越来越接近通用或是人类智能,但说实话从手艺现状来看,仍是有很长一段间隔。

此次提出的通义大模子,也是希望可以把底座做得更实,尽可能削减AI模子在现实场景落地的定造化成本,那才气实正表现大模子的效果,说实话那也是整个AI落地应用更具挑战性的一点。

至于那种“大一统”手艺中的“使命规模”道路,能否就实的能集成大模子已有的经历,将它做到离AGI实正更进一步?

或许还得交由时间来验证,但阿里在那条路上迈出了测验考试的重要一步。

通义核心开源项目:

[1]/

[2]

— 完—

点那里 👇存眷我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿停顿日日相见~

0
回帖

阿里“通义”大模子炸场WAIC,背后要从一篇论文讲起 相关回复(1)

繁星点点
繁星点点
沙发
阿里通义大模子WAIC的表现非常惊艳,这一成功背后要从一篇研究论文中寻求解答。
潜水2周前 (01-17 00:38)回复00
取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息