全球更大!阿里云推飞天智算平台,单集群算力超12EFLOPS
智工具(公家号:zhidxcom)
做者 | 李水青
编纂 | 漠影
智工具8月30日动静,今日,阿里云颁布发表推出智能计算处理计划“飞天智算平台”,并启动位于张北和乌兰察布的两座超等智算中心,算力规模合计15 EFLOPS(每秒1500亿亿次浮点运算),成为全球更大规模智算平台。
简单来说,智算中心是指专门面向人工智能应用的数据中心。
飞天智算平台是阿里云推出的智算中心晋级计划,向下撑持“一云多芯”,供给大规模合成算力;向上兼容通用及智能算力场景,以公有云和专有云两种形式为产学政客户供给全栈AI开发和模子才能。
阿里云智能全球销售总裁蔡英华说,当下,中国企业接纳人工智能比例达58%,居于全球首位,数据智能应用正驱动算力根底设备晋级,智能算力成为数字经济新引擎。
让主动驾驶模子训练提速170倍,助靶向药研究数据集计算效率性能提拔100倍,十万亿参数AI大模子1分钟内训练完成……阿里云公布的一组组数据展示出智算手艺带来的效率革命。
展开全文
跟着东数西算推进,我国智算中心建立已在京津冀、内蒙古、长三角等8地国度算力枢纽节点拉开序幕。据工信部统计,目前全国建成和在建的智算中心已有20多座。在财产界,云计算大厂、ICT企业、运营商都已入局。
与此同时,新的问题也在呈现——行业事实需要什么样的智算办事?海量智能算力若何实正被用起来?通过对话阿里云智算系统的负责人曹政,我们对智算中心的应用情状,以及背后的手艺和财产本相有了深切领会。
一、让主动驾驶AI训练提速170倍,阿里云推全球更大智算平台
2022年7月,在北京中关村写字楼中,小鹏汽车的工程师仅用1个小时,训练出一个本来需要7天完成的主动驾驶核心模子。而在300多公里外的乌兰察布的草原上,一个算力规模达600PEFLOPS的智算中心正高速运转,那是让小鹏AI模子训练提速近170倍,成本降低62%的幕后“策动机”。
在获得那一标杆功效之后,今日,阿里云颁布发表正式推出飞天智算平台。
那是一个阿里云为智算供给的全栈才能系统,也是助力小鹏主动驾驶智算中心中的核心平台。在客户视角,它相当于智算中心的操做系统,内部则涵盖一个智能计算系统、大数据和AI开发平台层,以及最上层的AI模子办事层。
近年来,汽车、生命科学、工业、元宇宙等各个范畴数智化开展敏捷,随之而来的是超大规模AI模子和海量数据,都对智能算力提出了更高要求。一般的数据中心也能够做AI,但算力在数据迁徙、同步等环节损耗往往可能超一半,成本昂扬,大大障碍了财产开展。
做为国内第一大云计算公司,阿里云用飞天智算平台来助财产破解那一算力瓶颈。
向下,飞天智算平台会办理智算集群,适配多品种型芯片;向上,它搭载了全栈AI开发和模子才能。根据阿里云官方数据,飞天智算平台可将计算资本操纵率进步3倍以上,AI训练效率提拔11倍,推理效率提拔6倍,并将PUE(电源利用效率,越靠近1表白效果越好)降低至1.09,远优于东数西算提出的1.25原则。
在正式推出之前,飞天智算平台在阿里云内履历了重重“历练”。
拿良多人熟悉的淘宝APP中的“拍立淘”来说,其摄影识商品模子的训练,就通过飞天智算提速200倍,10亿图片训练时间从2.5个月缩短到8小时;全球更大规模的十万亿参数AI模子M6也用到了飞天智算,仅利用512张GPU在10天内训练出,且能耗仅为GPT-3在同等参数规模下的1%。
目前,飞天智算平台已办事了深势科技、上汽集团、吉利集团、中国气象局、南方电网、北京大学等多个产学政机构,获得不错功效,好比助北大靶向药研究数据集计算效率估计性能提拔100倍等。
飞天智算平台正在支持建立两座超大规模智算中心——河北张北智算中心和内蒙古乌兰察布智算中心。
据称,那两大智算中心规划算力别离达12 EFLOPS和3 EFLOPS(FP16精度下),将超越谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS,成为全球更大的智算中心。粗略预算,若是15EFLOPS资本同时工做,一个万亿参数的AI大模子,大约需要10分钟就能完成全数训练。
能够看到,平台+智算中心,阿里云正在将其颠末理论验证的智算才能开放出来,与行业伙伴们一同奔赴新的效率革命高地。
二、数智转型需求井喷,智算中心成数字经济开展“新引擎”
数字经济开展进入窗口期,“十四五”相关规划提出了多项目标:大数据财产测算规模打破3万亿元,在线政务办事超8亿人,建成500个以上智能造造示范工场……“上云用数赋智”成为各个财产晋级的迫切需求。查询拜访机构IDC预测,2020-2023年,全球数字化转型的间接投资将超越6.8万亿美圆。
算力需求随之井喷,智算中心成为处理那些需求的有力抓手。
那么智算中心和一般数据中心到底有什么素质性区别?又是若何进步算力效率的呢?
阿里云智算系统负责人曹政说,助推人工智能跨入效率时代,需要超大规模弹性智能算力池、超高计算效率,以及释放多元芯片算力。本次,阿里云本次推出的飞天智算平台及智算中心,比拟于一般数据中心的次要特点如下:
1、合成算力峰值达12EFLOPS,千卡并行效率达90%
飞天智算单集群接纳通用计算、异构计算等多种计算形态合成,算力峰值高达12EFLOPS,千卡并行效率达90%。针对数据密集型场景,飞天智算对大规模集群存储IO性能可提拔10倍,可使万卡规模的AI集群通信无拥塞,将时延显著降低90%。
2、全链路AI开发东西与大数据办事,供给高效智能办事
飞天智算平台内置大数据+AI一体化产物系统,聚集了机器进修平台PAI、大数据开发与治理平台DataWorks、MaxCompute、Hologres、Flink等计算引擎,适用于多种AI场景的计算和开发需求,包罗科学研究、精准医学、气象预报、数字孪生、主动驾驶等。官方数据显示,其最多可提拔AI训练效率11倍,推理效率6倍。
3、一云多芯,撑持国产芯片自主立异
值得一提的是,跟着智算中心上升到新基建战略地位,对自主立异也提出更高的要求。飞天智算适配多种芯片架构,撑持X86、ARM、GPU、NPU等多种处置器混合摆设和同一调度,能够适配多种国内自研芯片,并停止应用优化。
4、绿色低碳,PUE更低降至1.09
在绿色低碳低碳方面,飞天智算中心接纳淹没式液冷、风冷、AI调温、模块化设想等绿色手艺建立,PUE更低降至1.09,建立占空中积节省90%。
能够看到,智算中心相较于一般数据中心的优势,远不行于算力。除了对算力规模和效率要求大大进步,智算中心还需要为客户供给软件平台层的产物和办事,那是算力实正落地财产“最初一公里”的关键。同时,自主立异和绿色低碳也是数字经济开展对智算中心的诉求。
高量量智算中心,将成为政企掌握数字经济开展“窗口期”的新引擎。
三、三路玩家“抢滩”智算财产,阿里云13岁尾层手艺立异大发作
近年来,各地智算中心如雨后春笋般涌现,据工信部统计,目前全国建成和在建的智算中心已有20多座。纵不雅财产界,阿里云、腾讯云如许的云计算大厂,华为、海潮、曙光等ICT厂商,还有三大运营商及各地的大中小集成商都已经入局了,可谓蠢蠢欲动。
值得一提的是,智算中心建立很重要,在建立完后能“用起来”愈加重要。
财产事实需要什么样的智算办事?
正如前文提到,智算中心要具备高效算力、AI赋能、自主立异、绿色节能等多种特征。阿里云智能全球销售总裁蔡英华认为,智算不只在于规模大,更是需要绿色、高效而且具备财产理论。计算是一个浩荡的复杂系统,没有系统化的核心手艺才能,堆硬件是堆不出算力的,更无法带来现实的财产价值。
自2015年起,阿里云在河北张北、内蒙古枢纽乌兰察布、江苏南通、浙江杭州、广东河源等地规划数据中心。在本次推出的飞天智算平台中,阿里云也对13年研发的云网手艺停止了集大成总结,以“灵骏”智能算力系统的形式打包赋能给财产。
灵骏拥有业界领先的异构计算弹性才能,以低通信延时、高并行计算效率为特征。那是若何实现的?
曹政谈道,那次要源于以下几大自研手艺点:
1、自研RDMA高速收集架构,AI集群的“高速路”
阿里自2016年起投入研究RDMA(长途间接内存拜候),目前已建成全球更大规模数据中心内的“高速网”。基于端网协同的Solar-RDMA高性能收集协议和HPCC流控算法,灵骏能有效躲避和弱化了收集毛病、收集黑洞等灾祸丧失。
2、高性能聚集通信库ACCL,“防堵车”的调度系统
通过自研高性能ACCL(聚集通信库)+自研硬件(如自研收集交换机),灵骏可实现GPU和网卡的智能婚配、节点表里物理拓扑主动识别及拓扑感知的无拥塞通信算法,对万卡规模的AI集群供给无拥塞、高性能的集群通信才能。
3、加速软件KSpeed,对特定需求“加Buff”
计算存储别离架构的“存储墙”问题显著,为此,阿里云通过自研高性能数据主动加载加速软件KSpeed。基于KSpeed,在部门场景中数据加载耗时可占据训练整体时长60%以上,可以将数据加载时长缩减到10%以内,相当于将单元时间内的计算性能提拔了1倍。
当处理了云网问题,AI是智算中心更高层面的要求,同时是核心诉求。
阿里云飞天智算平台的一大特色,就是撑持一套大数据+AI一体化产物系统。以机器进修平台PAI为例,它供给了模子训练摆设、推理优化等AI工程化东西,比开源框架训练性能提拔30%以上。PAI可为万亿级别参数的超大模子训练提效超越7倍,整体能耗降低80%;PAI-blade以较低门槛,可将大规模预训练模子压缩100倍以上,削减端到端模子摆设成本10倍以上,支持大量复杂模子在对话机器人、主动驾驶、智能造造、金融量化等场景的应用。
飞天智算平台还开放海量阿里达摩院研发的AI模子,笼盖多模态大模子、视觉模子、NLP模子和语音模子等。达摩院是中国最早投入预训练语言模子研究的团队之一,多模态大模子M6的参数规模居全球之首,深度语言大模子AliceMind曾以81.26%准确率刷新国际权势巨子机器视觉榜单VQA笔录。
值得一提的是,从“中国算力一张网”战略规划来看,智算中心网建立需要有全局系统化意识。
2022年2月启动的”东数西算”工程明白要求数据中心建立“集约化”,规定京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏8地为国度算力枢纽节点。阿里云两大智算中心等算力节点选址在枢纽节点,有望为“中国算力一张网”大战略供给助力。同时,阿里云在上海的华东智算中心也已在建立中,并有海外项目正在联系。
结语:智能算力网建立加快,提速智能财产开展
数字经济开展“窗口期”,人工智能正融入生活、消费的方方面面,智算中心成为背后的开展新引擎。阿里云本次推出的飞天智算平台,在向智算财产打造一个高效算力、AI赋能、自主立异、绿色节能的范式,为政企带来数智化转型带来新东西。
阿里云智能总裁张建锋此前谈道,阿里云最重要战略是“Back to Basic”,回到云计算的素质。自2009年创建以来,阿里云从研发国内独一的云计算操做系统飞天,到推出神龙云办事器、PolarDB云数据库、大数据计算平台MaxCompute等云计算产物,走过13年已将其云计算手艺更全面地开放出来。
当下,东数西算和全国一体化大数据中心系统建立程序加快,科技公司也正在将多年手艺融入到新基建加速中。智算中心在全国范畴内连成收集,也将标记我国智能财产产生量的飞跃。