留意力机造感化被高估了?苹果等机构新研究:把留意力矩阵替代成常数矩阵后,性能差别不大

4天前 (11-25 03:02)阅读1回复0
路人甲
路人甲
  • 管理员
  • 注册排名2
  • 经验值51205
  • 级别管理员
  • 主题10241
  • 回复0
楼主

萧箫 发自 凹非寺

量子位 | 公家号 QbitAI

要说Transformer的核心亮点,当然是 留意力机造了。

但如今,一篇新研究却突然提出了带点火药味的概念:

留意力机造关于预训练Transformer有多重要,那事儿得 打个问号。

留意力机造关于预训练Transformer有多重要,那事儿得 打个问号。

研究人员来自希伯来大学、艾伦人工智能研究所、苹果和华盛顿大学,他们提出了一种新的办法,用来权衡留意力机造在预训练Transformer模子中的重要性。

成果表白,即便去掉留意力机造,一些Transformer的性能也没太大改变,以至与本来的模子差别不到非常之一!

那个结论让很多人感应骇怪,有网友调侃:

你亵渎了那个范畴的神明!

你亵渎了那个范畴的神明!

所以,事实若何判断留意力机造关于Transformer模子的重要性?

把留意力换成常数矩阵

那种新测试办法名叫 PAPA,全称“针对预训练语言模子留意力机造的探测阐发” (Probing Analysis for PLMs’ Attention)。

PAPA接纳的办法,是将预训练语言模子 (PLMs)中依赖于输入的留意力矩阵替代成常数矩阵。

如下图所示,我们熟悉的 留意力机造是通过Q和K矩阵,计算得到留意力权重,再感化于V得到整体权重和输出。

如今,Q和K的部门间接被替代成了一个 常数矩阵C:

展开全文

此中常数矩阵C的计算体例如下:

随后,用6个下流使命测试那些模子 (CoLA、MRPC、SST-2、MNLI、NER、POS),比照接纳PAPA前后,模子的性能差距。

为了更好地查验留意力机造的重要性,模子的留意力矩阵并不是一次性全换成常数矩阵,而是逐次削减留意力头的数量。

如下图,研究先用了BERT-BASE、RoBERTa-BASE和DeBERTa-BASE做尝试,此中y轴表达性能,x轴是留意力头比拟本来削减的情状:

随后,研究又用了BERT-LARGE、RoBERTa-LARGE和DeBERTa-LARGE做尝试:

通过比力成果,研究人员发现了一些有意思的现象:

起首,用常数矩阵替代一半的留意矩阵,对模子性能的影响极小,某些情状下以至可能招致性能的提拔 (x值到达½时,图中有些模子数值不减反增)。

其次,即便留意力头数量降低为0,均匀性能下降也就8%,与原始模子比拟最多不超越20%。

起首,用常数矩阵替代一半的留意矩阵,对模子性能的影响极小,某些情状下以至可能招致性能的提拔 (x值到达½时,图中有些模子数值不减反增)。

其次,即便留意力头数量降低为0,均匀性能下降也就8%,与原始模子比拟最多不超越20%。

研究认为,那种现象表白预训练语言模子对留意力机造的依赖没那么大 (moderate)。

模子性能越好,越依赖留意力机造

不外,即便是预训练Transformer模子之间,性能表示也不完全一样。

做者们将表示更好的Transformer模子和更差的Transformer模子停止了比照,发现本来性能更好的模子,在颠末PAPA的“测试”后, 性能反而变得更差了。

如下图,此中y轴代表各模子本来的均匀性能,x轴代表将所有留意力矩阵替代为常数矩阵时 (颠末PAPA测试)模子性能的相对降低分值:

能够看出,之前性能越好的模子,将留意力矩阵替代成常数矩阵遭到的丧失也越高。

那阐明若是模子自己性能越好,对留意力机造的操纵才能就越好。

关于那项研究,有网友觉得很赞:

听起来很酷,如今很多架构太重视各类计算和性能使命,却忽略了事实是什么给模子带来的改动。

听起来很酷,如今很多架构太重视各类计算和性能使命,却忽略了事实是什么给模子带来的改动。

但也有网友认为,不克不及单纯从 数据来判断架构改变能否重要。

例如在某些情状下,留意力机造给隐空间 (latent space)中数据点带来的幅度改变仅有2-3%:

莫非那种情状下它就不敷重要了吗?纷歧定。

莫非那种情状下它就不敷重要了吗?纷歧定。

关于留意力机造在Transformer中的重要性,你怎么看?

论文地址:

— 完—

MEET 2023 大会定档!

首批嘉宾阵容公布

量子位「MEET2023智能将来大会」正式定档12月14日!

首批嘉宾包罗 郑纬民院士、MSRA 刘铁岩、阿里 贾扬清、百度 段润尧、高通 Ziad Asghar、小冰 李笛、海潮 刘军以及中关村科金 张杰等来自产学研界大咖嘉宾,更多重磅嘉宾陆续确认中。

点击 “预约”按钮,一键中转大会曲播现场!

点那里存眷我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿停顿日日相见 ~

0
回帖

留意力机造感化被高估了?苹果等机构新研究:把留意力矩阵替代成常数矩阵后,性能差别不大 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息