©PaperWeekly 原创 · 做者 | 苏剑林
单元 | 逃一科技
研究标的目的 | NLP、神经收集
前段时间在比来的一篇论文《Unsupervised Opinion Summarization Using Approximate Geodesics》[1]中学到了一个新的概念,喊做“测地线间隔(Geodesic Distance)”,觉得有点意思,特来跟各人分享一下。
对笔者来说,“新”的不是测地线间隔概念自己(以前学黎曼几何的时候就已经接触过了),而是语义类似度范畴本来也能够巧妙地构造出测地线间隔出来,并在某些场景下发扬感化。假设愿意,我们还能够说那是“流形上的语义类似度”,是不是霎时就高级了很多?
论文梗概
起首,我们简单总结一下原论文的次要内容。望文生义,论文的主题是摘要,凡是我们的无监视摘如果如许做的:假设文章由 n 个句子 构成,给每个句子设想打分函数 (典范的是 tf-idf 及其变体),然后挑出打分更大的若干个句子做为摘要。
当然,论文做的不是简单的摘要,而是“Opinion Summarization”,那个“Opinion”,我们能够理解为实现给定的主题或者中心 c,摘要应该倾向于抽取出与 c 相关的句子,所以打分函数应该还应该跟 c 有关,即 。
自从“万物皆 Embedding”后, 的一种支流设想体例就是将句子 和主题 c 都编码为响应的句向量 ,然后用某种间隔的倒数做为打分函数:
在那种设想中,句向量的编码模子 和间隔函数 都是可设想的空间。原论文在 和 上都做了一些工做,此中 不是本文关心的内容,暂且略过,有兴致的读者自行看原论文。至于论文在 上的奉献,就是将常见的简单间隔,换成了本文的主题“测地线间隔”。
原理阐发
为什么要用到测地线间隔?那要从我们操练句向量的计划说起。
进修句向量的体例既能够是有监视的,也能够是无监视的。以有监视为例,一般就是正样本对和负样本对做比照进修(参考 《CoSENT:比Sentence-BERT更有效的句向量计划》 ),正样本对就是标识表记标帜出两个语义根本不异的句子,我们能够认为它们类似度很高,或者间隔很小。
问题出在负样本对,做为两个语义不不异的句子,它们可能是特意标识表记标帜出来的困难样本,也可能是随机挑出来的两个不相关样本,原则上那两种情状应当付与差别的间隔,但现实都只是标识表记标帜了统一个标签,即“负”。
那就招致了一个成果,我们用句向量算出来的间隔数值,理论上是对语义比力附近的句子才比力准确,关于语义差距比力大的句子,间隔数值只可以用来区分出正负样本,但不克不及在临近范畴内做比力。举个例子,我们能够说间隔为 1 的比间隔为 2 的更类似,也能够说间隔为 1 的比间隔为 10 的更类似,但没法说间隔为 10 的比间隔为 11 的更类似,因为间隔大了,其绝对数值就禁绝了。
展开全文
检索场景下,凡是要召回类似度很高(也就是间隔很小)的样本,因而间接用简单的间隔函数 往检索就行。但是,关于原论文的“Opinion Summarization”场景,要计算的是句子 与主题 c 的间隔 ,“句子”与“主题”的类似度就未必很大了(间隔偏大),也就是说,它是要在间隔类似度偏大的区间做相比照较,那就合适用到测地线间隔了。
测地间隔
测地线间隔,简单来说就是两点之间的最短间隔,因为流形未必是平曲的,因而该间隔未必是两点之间的曲线间隔(欧式间隔),典范例子就是从地球的南极走到北极,我们没法穿过地心走曲线,只能沿着地球外表先走到赤道然后再走到南极,走了一条曲线(半圆)间隔。
在部分范畴内(此时间隔比力小),地球仍是平的,所以欧式间隔仍是可用的,但是放到“南极-北极”、“南极-赤道”如许的大间隔就不敷准确了,那就跟适才的语义类似度场景很类似了——已知的间隔(好比欧式间隔)在近间隔内比力准确,在远间隔不准确,素质上就是因为流形不是平曲的。
幸运的是,有部分间隔就够了,我们将其转化为一个图的问题,能够操纵“最短途径”的算法预算出近似的测地线间隔。
详细来说,我们能够用现有的间隔函数算出每个点与剩余点的间隔,然后只保留间隔比来的 k 个点(也能够按阈值截断,看详细情状),在它们之间连一条边并标识表记标帜上间隔,如许一来所有点和边构成了一个加权图(我们称之为“k 临近图”),我们就能够用 Dijkstra 算法来搜刮出图上肆意两点的最短途径,并计算出它的长度,那就是测地线间隔的近似成果。
总的来说,在“附近点的间隔比力准、较远点的间隔比力禁绝”的假设下,我们能够 k 临近图加最短途径的办法,预算较远点的测地线间隔来做为替代品。因为测地线间隔考虑了向量空间的流外形况,所以有可能获得比力好的效果(参考原论文的 Table 8) 。
参考文献
[1]
更多阅读
# 投 稿 通 道#
让你的文字被更多人看到
若何才气让更多的优良内容以更短途径抵达读者群体,缩短读者觅觅优良内容的成本呢? 谜底就是:你不熟悉的人。
总有一些你不熟悉的人,晓得你想晓得的工具。PaperWeekly 或答应以成为一座桥梁,促使差别布景、差别标的目的的学者和学术灵感彼此碰碰,迸发出更多的可能性。
PaperWeekly 鼓舞高校尝试室或小我,在我们的平台上分享各类优良内容,能够是 最新论文解读,也能够是 学术热点分析、 科研心得或 竞赛体味讲解等。我们的目标只要一个,让常识实正活动起来。
📝 稿件根本要求:
• 文章确系小我 原创做品,不曾在公开渠道颁发,如为其他平台已颁发或待颁发的文章,请明白标注
• 稿件定见以 markdown格局撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原做者签名权,并将为每篇被摘纳的原创首发稿件,供给 业内具有合作力稿酬,详细根据文章阅读量和文章量量阶梯造结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注立即联络体例(微信),以便我们在稿件选用的第一时间联络做者
• 您也能够间接添加小编微信( pwbot02)快速投稿,备注:姓名-投稿
如今,在 「知乎」也能找到我们了
进进知乎首页搜刮 「PaperWeekly」
点击 「存眷」订阅我们的专栏吧