AI科学语言大模型火了,数学生物计算机样样行,编代码写综述也不在话下

2个月前 (11-17 23:51)阅读2回复0
niannian
niannian
  • 总版主
  • 注册排名10
  • 经验值80195
  • 级别网站编辑
  • 主题16039
  • 回复0
楼主

Pine 发自 凹非寺

量子位 | 公家号 QbitAI

AI搜刮引擎再度进化?!

给那个AI一个主题,分分钟给你甩出一篇论文综述,并且还会本身供给论文引文。

又或者输入一个科学类的名词,AI也能敏捷生成那个名词专属的维基百科。

那个AI名叫 Galactica(简称:GAL),是最新 开源的一个科学语言大模子,把 AI转化为科学消费力。

而且还实现了学科“大一统”,数学、物理、计算机…那个AI都能用。

模子刚一放出,就敏捷引发网友热议,目前相关推文已有近15万阅读,累计点赞、转发、引用也已破五千。

Facebook前手艺官也出来为它来站台。

展开全文

还有网友亲身体验了一把,写出来的文献综述“看起来相当不错”,以至曲呼:

下一步它是不是就能产生新设法了。

下一步它是不是就能产生新设法了。

其实写文献综述和消费维基百科还只是GAL功用的一部门,除去那些,它还能答复一些专业问题、编写科学代码、正文分子和卵白量……

详细效果若何,一路来看看吧~

能够做为科学消费的东西

提到科学消费力,就必定离不开论文的查找,那不,GAL帮你处理了。

它涵盖了五种科学学科:机器进修、数学、计算机科学、生物以及物理。

选择勤学科,然后在右边框输入想要找的论文主题,右边GAL便会保举最适宜的论文以供阅读。

除了保举论文之外,GAL还有一个愈加适用的功用: 生成讲稿。

好比说要做个关于密度泛函理论 (DFT)的pre,又懒得写讲稿,间接GAL一下,分分钟搞定 (手动狗头)。

GAL还可以用来正文分子和卵白量,如下就是GAL生成的RDKit (可生成用于机器进修的分子描述符)操做手册。

在一些细节问题上,GAL也狠狠拿捏了!

就好比说你看不懂一些复杂的数学公式和代码,不妨交给GAL来处理,它能间接给你翻译成大白话。

不只如斯,它还能实现数学公式和代码之间的彼此转换,或者差别类型代码之间的转换。

更重要的是,他还有 简化公式和查错功用。

怎么做到的?

GAL能实现那么复杂的功用,就不能不提到它的训练数据集。

据官方动静,GAL是在一个名为NatureBook的新型 高量量科学数据集长进行训练的,那使模子可以利用科学术语、数学和化学公式以及源代码。

此中包罗 超越4800万篇论文、教科书和课堂讲稿,还有数百万计的化合物和卵白量、科学网站以及百科全书等等。

除此之外,为了查找论文并标准化引用,GAL的数据集中包罗 超越3.6亿条上下文引用和 超越5000万条跨差别来源标准化的奇特参考。

有了那么浩荡的数据集之后,那接下来便面对两个问题。

第一个问题是 若何办理那些高量量的数据集,实现那点,GAL用了两步:

所有数据都 以一种通用的标识表记标帜格局 停止处置,打通各类来源数据之间的壁垒。

预训练中包罗 用于特定使命的数据集 ,那就能包管在处置特定使命时可以愈加专业。

还有一个问题是: 若何设想界面交互?

起首就像上文提到的那样,GAL可以撑持差别类型的使命。

因而在设想界面交互时便对各类使命停止分类,差别的分类会撑持差别的类型的数据。

既然GAL拥有高度办理和高量量的科学数据集,那和其他模子比拟效果若何?

间接上数据!

推理方面,GAL的优势脱颖而出,在数学MMLU (大规模多使命语言理解)上,表示要优于Chinchilla,数学方面,表示也优于PalM 540B和GPT-3 175B。

虽然,GAL并没有颠末一般数据集的训练,但它在BIG-bench上的表示仍旧优于BLOOM和OPT-175B。

看完之后是不是也心痒痒了,先码住再说!

传送门:

/

— 完—

「2022人工智能年度评选」炽热报名中

最初一周, 量子位「2022人工智能年度评选」即将截行报名!本次评选将从企业、人物、产物/处理计划三大维度设置5类奖项,抓紧时间参与吧!

更多关于评选原则、榜单报名欢送扫描下方二维码~

点那里存眷我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿停顿日日相见 ~

0
回帖

AI科学语言大模型火了,数学生物计算机样样行,编代码写综述也不在话下 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息