笼盖200+办事场景,阿里通义大模子系列打造国内首个AI同一底座
机器之心原创
做者:杜伟
在大模子范畴,阿里继续发力,用手艺和构想立异走出一条纷歧样的路。
时至今日,大模子已经成为整个 AI 产学界逃逐的手艺「宠儿」,炼大模子如火如荼,形形色色参数纷歧、使命导向差别的大模子屡见不鲜。大模子具备效果好、泛化才能强等特点,进一步加强了 AI 的通用性,成为 AI 手艺和应用的新基座。
详细到 NLP、CV 范畴,基于文本、图像、语音和视频等单一模态的大模子在各自下流使命上不竭获得 SOTA 成果,有时以至超越人类表示。单模态单使命似乎走到了极致。同时现实世界中的那些模态其实不老是独立存在,更多地是以跨模态的形式呈现。
基于那些,预训练大模子逐步朝着大一统标的目的开展,希望单个模子可以同时处置文本、图像、音频、视频等多模态使命,即便现有模子无法做到也要留出才能空间。
目前,业界已经呈现一些可以处置多模态使命的通用模子,好比 DeepMind 的通用图文模子 Flamingo 和通才智能体 Gato,MSRA 的 BEiT-3 等。那些都展示出了大模子打破单一模态和单一使命的庞大潜力,但在实现全模态全使命的通用性上仍然面对手艺难点。大模子的训练与落地应用也遭到算力限造。
在国内,阿里达摩院不断以来深耕多模态预训练,并率先摸索通用同一大模子。去年,阿里达摩院先后发布多个版本的多模态及语言大模子,在超大模子、低碳训练手艺、平台化办事、落地应用等方面实现打破。此中利用 512 卡 V100 GPU 实现全球更大规模 10 万亿参数多模态大模子 M6,同等参数规模能耗仅为此前业界标杆的 1%,极大降低大模子训练门槛。
阿里摸索大模子通用性及易用性的勤奋并没有行步于此。9 月 2 日,在阿里达摩院主办的世界人工智能大会「大规模预训练模子」主题论坛上,阿里巴巴资深副总裁、达摩院副院长周靖人发布阿里巴巴最新「通义」大模子系列,其打造了国内首个 AI 同一底座,并构建了通用与专业模子协同的条理化人工智能系统,将为 AI 从感知智能迈向常识驱动的认知智能供给先辈根底设备。
为了实现大模子的畅通领悟贯穿,阿里达摩院在国内率先构建 AI 同一底座,在业界初次实现模态表达、使命表达、模子构造的同一。通过那种同一进修范式,通义同一底座中的单一 M6-OFA 模子,在不引入任何新增构造的情状下,可同时处置图像描述、视觉定位、文生图、视觉蕴含、文档摘要等 10 余项单模态和跨模态使命,并到达国际领先程度。那一打破更大程度打通了 AI 的感官,遭到学界和工业界普遍存眷。近期 M6-OFA 完成晋级后可处置超越 30 种跨模态使命。
展开全文
通义同一底座中的另一构成部门是模块化设想,它借鉴了人脑模块化设想,以场景为导向灵敏拆拔功用模块,实现高效率和高性能。
周靖人表达,「大模子模仿了人类构建认知的过程,通过合成 AI 在语言、语音、视觉等差别模态和范畴的常识系统,我们期望多模态大模子能成为下一代人工智能算法的基石,让 AI 从只能利用‘单一感官’到‘五官全开’,且能挪用储蓄丰硕常识的大脑来理解世界和思虑,最末实现接近人类程度的认知智能。」
阿里达摩院构建 AI 同一底座
M6-OFA 模子实现架构、模态和使命同一
通义同一底座中同一进修范式的实现背后离不开阿里达摩院的多模态同一底座模子 M6-OFA,相关研究被 ICML 2022 领受,代码、模子和交互式办事也已开源。
论文地址:
开源地址:
交互式 Demo 地址:
先来看架构同一。M6-OFA 整体接纳了典范的 Transformer Encoder-Decoder,外加一个 ResNet Blocks。通过那种架构完成所有使命,让预训练和微调接纳不异的进修形式,无需增加任何使命特定的模子层。
如下图所示,ResNet Blocks 用于提取图像特征,Transformer Encoder 负责多模态特征的交互,Transformer Decoder 接纳自回归体例输出成果。
关于模态同一,M6-OFA 构建了一个涵盖差别模态的通用词表,以便模子利用该词表表达差别使命的输出成果。此中 BPE 编码的天然语言 token 用于表达文本类使命或图文类使命的数据;图片中持续的横纵坐标编码为离散化 token,用于表达视觉定位、物体检测的数据;图片中的像素点信息编码为离散化 token,用于表达图片生成、图片补全等使命的数据。
最初是使命同一,通过设想差别的 instruction,M6-OFA 将涉及多模态和单模态(即 NLP 和 CV)的所有使命都同一建模成序列到序列(seq2seq)使命。M6-OFA 笼盖了 5 项多模态使命,别离为视觉定位、定位字幕、图文婚配、图像字幕和视觉问答(VQA);2 项视觉使命,别离为检测和图像填补;1 项文本使命,即文本填补。
本年 2 月,M6-OFA 同一多模态模子在一系列视觉语言使命中实现了 SOTA 性能,在 Image Caption 使命获得更优表示,持久在 MSCOCO 榜单排名第一;在视觉定位使命中的 RefCOCO、RefCOCO + 和 RefCOCOg 三个数据集均获得更优表示,以及在视觉推理使命的数据集 SNLI-VE 上获得第一。OFA 的 VQA 分数到达 82.0,效果首屈一指。文本生成图像(text2Image)在 COCO 数据集上超越了此前基线模子,其时的 Case 比照也优于 GLIDE 和 CogView。而且,OFA 模子展示出必然的零样本进修新使命的才能。
下图展现了 M6-OFA 的 text2Image 和 VQA 使命的跨模态生成成果。
在更大规模的文生图的数据停止微调后,模子也获得了通用范畴文生图使命的优良表示,尤其擅长艺术创做,如下图所示:
借鉴人脑的模块化设想
目前业界普及认为,人脑自己由差别的模块构成,大脑中拥有储蓄各类常识和处置差别模态信息的才能模块,人类思虑时只挪用与特定使命相关的模块,正那种机造包管了人脑的高速运行。通义同一底座的另一构成部门「模块化设想」恰是借鉴了那种运行机造。
详细而言,模块化大一统模子接纳模块化 Transformer Encoder-Decoder 构造来同一多模态的理解和生成,同时切分出差别的独立模块,包罗根底层、通用层(如差别模态)、使命层到功用性模块(如推理),每个模块间彼此解耦,各司其职。
达摩院团队为何会摸索那种模块化设想构想呢?如今大规模预训练的 Transformer-based 模子固然可以很好地处理感知智能相关使命,但欠缺精心设想的纯 Transformer 模子根本无法完成关于实现认知智能的测验考试。借鉴人脑的模块化设想成为一种可能通向胜利的构想。
在单一 NLP 模块中,更底层为数据表达层,中间层为 Transformer 根底语义表达模块,最上层则是对整个下流划分为差别的使命模块;而关于多模态的模块化,其模态模块涵盖语言、视觉、音频和视频——底部输入层领受各自模态信息,中间层通过跨模态信息合成进修同一语义表达,往上再划分为针对差别模态的详细下流使命。
针对差别类型的下流使命,模块化模子可灵敏拆拔差别模块停止微调或者停止继续预训练。通过那种体例,大模子可以实现轻量化,并获得较好的微调效果,单模态、多模态使命程度均能得到提拔。
基于同一底座打造条理化模子系列
大模子最末是要实现落地,称心各行各业的应用需求。因而,阿里达摩院基于其 AI 同一底座构建了通用模子与专业模子协同的条理化人工智能系统。
下图为通义大模子整体架构,更底层为同一模子底座,中间基于底座的通用模子层笼盖了通义 - M6、通义 - AliceMind 和通义 - 视觉,专业模子层深切电商、医疗、娱乐、设想、金融等行业。
通义 - M6 已经从 2020 年 6 月的 3 亿参数根底模子开展到 2021 年 10 月的 10 万亿参数全球更大预训练模子到 2022 年 1 月的业界首个通用同一大模子 M6-OFA。
通义 - AliceMind 是阿里达摩院开源的深度语言模子系统,包罗了通用语言模子 StructBERT、生成式 PALM、构造化 StructuralLM、超大中文 PLUG 、多模态 StructVBERT、多语言 VECO、对话 SPACE 1.0/2.0/3.0 和表格 STAR 1.0/2.0,过程中构成了从文本 PLUG 到多模态 mPLUG 再到模块化同一模子演化趋向。
近日,基于 AliceMind/StructBERT 模子成果在中文语言理解测评根底 CLUE 上获得了三榜第一,别离是分类榜单、机器阅读理解榜单和总榜单。
通义 - 视觉大模子自下往上分为了底层同一算法架构、中层通用算法和上层财产应用。据领会,通用 - 视觉大模子能够在电商行业实现图像搜刮和万物识别等场景应用,并在文生图以及交通和主动驾驶范畴发扬感化。
阿里始末秉承开源开放的理念。此次通义大模子系列中语言大模子 AliceMind-PLUG、多模态理解与生成同一模子 AliceMind-mPLUG、多模态同一底座模子 M6-OFA、超大模子落地关键手艺 S4 框架等核心模子及才能已面向全球开发者开源,最新文生图大模子近期将开放体验。此中, 270 亿参数版 AliceMind-PLUG 是目前规模更大的开源语言大模子。
开源链接:
/
协同其实不容易做到
通过通用与专业范畴大小模子的协同,阿里达摩院让通义大模子系列兼顾了效果更优化与低成本落地。然而实现那一切其实不容易。
回到通义的设想构想,即通过一个同一的底座模子同时做单模态和跨模态使命,在多模态使命上获得 SOTA 效果的同时也能处置单模态使命。不外,既然希望模子更通用以笼盖更多模态及下流使命,则需要高效地将同一底座下沉到详细场景中的公用模子。那恰是模子底座、通用模子与下流专业模子协同的关键。
受算力资本限造,大模子行业落地不容易。近一两年,业界也提出了一些落地构想,即先打造一个根底大模子,再继续训练得到范畴模子,最初通过微调构建详细行业使命模子。通义也要走通如许的路,不外希望通过新的大模子架构设想将那一过程做到更快和更高效。
能够那么说,无论是 seq2seq 同一进修范式仍是模块化设想构想,阿里达摩院都希望对整个模子架构和同一底座有更深的理解。尤其是模块化构想,通细致分为良多个模块并晓得它们能做什么,则实正能够鄙人游得到很高效且通用性很好的行业应用小模子。
目前,通过摆设超大模子的轻量化及专业模子版本,通义大模子已在超越 200 个场景中供给办事,实现了 2%~10% 的应用效果提拔。
好比,通义大模子在淘宝服饰类搜刮场景中实现了以文搜图的跨模态搜刮、在 AI 辅助审讯中司法卷宗的事务抽取、文书分类等场景使命中实现 3~5% 的应用效果提拔、在开放域人机对话范畴通过成立初步具备「常识、感情以及个性、记忆」的中文开放域对话大模子实现了主动对话、普遍话题、紧跟热点等对话体验。
此外,通义大模子在 AI 辅助设想、医疗文本理解等其他范畴也有丰硕的应用场景。我们来看一组通义大模子在文生图范畴的效果展现。好比文艺复兴期间皇家花栗鼠肖像画:
中国风 - 山中建筑:
以及中国风进修中的小猫:
周靖人表达,对达摩院来说不断以来重点都不是把模子的规模做大,而是通过一系列的前沿研究和理论沉淀更通用更易用的大模子底层手艺。现阶段,阿里达摩院希望将底座做得更实,将更多模态和使命考虑到同一模子范围内,通过削减 AI 模子在现实场景落地中的定造化成本,实正表现出大模子的效果。
与此同时,在打造大模子同一底座的根底上,阿里希望通过开源开放,与外界用户和协做方本身共创下流应用。
参考链接: