论文阅读《Extracting Multiple-Relations in One-Pass with Pre-Trained Transformers》
作者:互联网
前言
1.思想
- 望各位读者审慎阅读。
- 待更新~
1.思想
通过修改transformer的基础结构去解决 Multiple Relation Extraction(MRE)中的 Multiple Pass 问题
2.问题- 已经有实体被标注出来,现在要做的任务是对这些实体对之间进行分类
- 本文提出的方法适用于基于transformer 的encoder,因为本文对transformer 中的attention 进行了一点儿修改,在其中添加了一个相对位置信息
将实体间的位置信息融入到attention 计算当中。位置信息是通过相对位置获取,加入到attention的步骤是通过融合计算。下面分别来看一下。
3.1 如何获取相对位置信息
使用一个二维矩阵定义一个距离。如下图所示:
这样我们就可以得到每个token间的一个相对距离,这个相对距离的计算方式如下:
- 先计算两个token之间的距离。计算的公式是:d(i,j) = min(max(-k,i-j),k)
- 再根据得到的d(i,j),得到一个映射的向量 w d i , j w_{d_{i,j}} wdi,j。这个映射过程文章中说的不是很清楚,只是说这个 { w − k K , . . . , w k K , } \{w_{-k}^{K},..., w_{k}^{K},\} {w−kK,...,wkK,} 和 { w − k V , . . . , w k V , } \{w_{-k}^{V},..., w_{k}^{V},\} {w−kV,...,wkV,}都是从头开始训练的。
3.2 如何融合到模型中?
将相对位置信息融入到attention中。这个融入的过程就体现在将上面得到的 relation position embedding 放到 attention 中一起计算。 如下图所示:
这没啥好说的了。
- 论文的实验部分还是应该看看,学习一下的,如果只看模型,没有对照分析一下实验,总会缺点儿什么。
其实吧 ,现在回过头来看,魔改模型都是“灌水”式的研究,那些通过排列组合在数据上跑出最优实验结果然后再发paper总感觉少了 点儿意思,我并不是说作者他们做的不好,但是确实不够有用。因为这些文章不需要几年就会过时,真的很令人痛心。希望我能够做出一些有用的研究。
标签:Pre,...,transformer,位置,Multiple,计算,attention,Trained 来源: https://blog.51cto.com/lawsonabs/2984778