从部分到全局:语义类似度的测地线间隔

2周前 (02-13 08:06)阅读1回复0
小强
小强
  • 管理员
  • 注册排名8
  • 经验值130130
  • 级别管理员
  • 主题26026
  • 回复0
楼主

©PaperWeekly 原创 · 做者 | 苏剑林

单元 | 逃一科技

研究标的目的 | NLP、神经收集

前段时间在比来的一篇论文《Unsupervised Opinion Summarization Using Approximate Geodesics》[1]中学到了一个新的概念,喊做“测地线间隔(Geodesic Distance)”,觉得有点意思,特来跟各人分享一下。

对笔者来说,“新”的不是测地线间隔概念自己(以前学黎曼几何的时候就已经接触过了),而是语义类似度范畴本来也能够巧妙地构造出测地线间隔出来,并在某些场景下发扬感化。假设愿意,我们还能够说那是“流形上的语义类似度”,是不是霎时就高级了很多?

论文梗概

起首,我们简单总结一下原论文的次要内容。望文生义,论文的主题是摘要,凡是我们的无监视摘如果如许做的:假设文章由 n 个句子 构成,给每个句子设想打分函数 (典范的是 tf-idf 及其变体),然后挑出打分更大的若干个句子做为摘要。

当然,论文做的不是简单的摘要,而是“Opinion Summarization”,那个“Opinion”,我们能够理解为实现给定的主题或者中心 c,摘要应该倾向于抽取出与 c 相关的句子,所以打分函数应该还应该跟 c 有关,即 。

自从“万物皆 Embedding”后, 的一种支流设想体例就是将句子 和主题 c 都编码为响应的句向量 ,然后用某种间隔的倒数做为打分函数:

在那种设想中,句向量的编码模子 和间隔函数 都是可设想的空间。原论文在 和 上都做了一些工做,此中 不是本文关心的内容,暂且略过,有兴致的读者自行看原论文。至于论文在 上的奉献,就是将常见的简单间隔,换成了本文的主题“测地线间隔”。

原理阐发

为什么要用到测地线间隔?那要从我们操练句向量的计划说起。

进修句向量的体例既能够是有监视的,也能够是无监视的。以有监视为例,一般就是正样本对和负样本对做比照进修(参考 《CoSENT:比Sentence-BERT更有效的句向量计划》 ),正样本对就是标识表记标帜出两个语义根本不异的句子,我们能够认为它们类似度很高,或者间隔很小。

问题出在负样本对,做为两个语义不不异的句子,它们可能是特意标识表记标帜出来的困难样本,也可能是随机挑出来的两个不相关样本,原则上那两种情状应当付与差别的间隔,但现实都只是标识表记标帜了统一个标签,即“负”。

那就招致了一个成果,我们用句向量算出来的间隔数值,理论上是对语义比力附近的句子才比力准确,关于语义差距比力大的句子,间隔数值只可以用来区分出正负样本,但不克不及在临近范畴内做比力。举个例子,我们能够说间隔为 1 的比间隔为 2 的更类似,也能够说间隔为 1 的比间隔为 10 的更类似,但没法说间隔为 10 的比间隔为 11 的更类似,因为间隔大了,其绝对数值就禁绝了。

展开全文

检索场景下,凡是要召回类似度很高(也就是间隔很小)的样本,因而间接用简单的间隔函数 往检索就行。但是,关于原论文的“Opinion Summarization”场景,要计算的是句子 与主题 c 的间隔 ,“句子”与“主题”的类似度就未必很大了(间隔偏大),也就是说,它是要在间隔类似度偏大的区间做相比照较,那就合适用到测地线间隔了。

测地间隔

测地线间隔,简单来说就是两点之间的最短间隔,因为流形未必是平曲的,因而该间隔未必是两点之间的曲线间隔(欧式间隔),典范例子就是从地球的南极走到北极,我们没法穿过地心走曲线,只能沿着地球外表先走到赤道然后再走到南极,走了一条曲线(半圆)间隔。

在部分范畴内(此时间隔比力小),地球仍是平的,所以欧式间隔仍是可用的,但是放到“南极-北极”、“南极-赤道”如许的大间隔就不敷准确了,那就跟适才的语义类似度场景很类似了——已知的间隔(好比欧式间隔)在近间隔内比力准确,在远间隔不准确,素质上就是因为流形不是平曲的。

幸运的是,有部分间隔就够了,我们将其转化为一个图的问题,能够操纵“最短途径”的算法预算出近似的测地线间隔。

详细来说,我们能够用现有的间隔函数算出每个点与剩余点的间隔,然后只保留间隔比来的 k 个点(也能够按阈值截断,看详细情状),在它们之间连一条边并标识表记标帜上间隔,如许一来所有点和边构成了一个加权图(我们称之为“k 临近图”),我们就能够用 Dijkstra 算法来搜刮出图上肆意两点的最短途径,并计算出它的长度,那就是测地线间隔的近似成果。

总的来说,在“附近点的间隔比力准、较远点的间隔比力禁绝”的假设下,我们能够 k 临近图加最短途径的办法,预算较远点的测地线间隔来做为替代品。因为测地线间隔考虑了向量空间的流外形况,所以有可能获得比力好的效果(参考原论文的 Table 8) 。

参考文献

[1]

更多阅读

# 投 稿 通 道#

让你的文字被更多人看到

若何才气让更多的优良内容以更短途径抵达读者群体,缩短读者觅觅优良内容的成本呢? 谜底就是:你不熟悉的人。

总有一些你不熟悉的人,晓得你想晓得的工具。PaperWeekly 或答应以成为一座桥梁,促使差别布景、差别标的目的的学者和学术灵感彼此碰碰,迸发出更多的可能性。

PaperWeekly 鼓舞高校尝试室或小我,在我们的平台上分享各类优良内容,能够是 最新论文解读,也能够是 学术热点分析、 科研心得或 竞赛体味讲解等。我们的目标只要一个,让常识实正活动起来。

📝 稿件根本要求:

• 文章确系小我 原创做品,不曾在公开渠道颁发,如为其他平台已颁发或待颁发的文章,请明白标注

• 稿件定见以 markdown格局撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原做者签名权,并将为每篇被摘纳的原创首发稿件,供给 业内具有合作力稿酬,详细根据文章阅读量和文章量量阶梯造结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注立即联络体例(微信),以便我们在稿件选用的第一时间联络做者

• 您也能够间接添加小编微信( pwbot02)快速投稿,备注:姓名-投稿

如今,在 「知乎」也能找到我们了

进进知乎首页搜刮 「PaperWeekly」

点击 「存眷」订阅我们的专栏吧

0
回帖

从部分到全局:语义类似度的测地线间隔 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息