其他分享
首页 > 其他分享> > 《Investigating Typed Syntactic Dependencies for TSC Using GAT》论文笔记

《Investigating Typed Syntactic Dependencies for TSC Using GAT》论文笔记

作者:互联网

论文题目:Investigating Typed Syntactic Dependencies for Targeted Sentiment Classification Using Graph Attention Neural Network

概览

该文章认为依存句法信息能作为一种外部有用知识帮模型找到 目标对应的情感词,依存句法信息即对句子建立的语法图,比如下图
在这里插入图片描述

该文章就利用了这种单词之间的关系来帮助衡量上下文单词对目标单词的重要性,其主要研究的是如何利用语法依存关系来进行更有针对性的情感分类,提出用graph attention network(GAN)集成依存关系,用一种新的注意力函数来帮助目标更好地抓住有用的上下文信息,同时用依存标签丰富单词的表示(即不仅考虑了单词间是否存在关系也考虑了关系的类型,其模型主要有以下两点不同:

(1)利用语法依赖关系

(2)用两个独立的编码器来建模,结构编码器可拆卸,并且可以相对容易地应用于新的序列编码器模型,它可以减少自动解析的依赖树的错误传播。(即下图架构中分为左右两个编码器,上下文编码与语法编码分开计算,最后再聚合),这种结构还可以并行计算,不会承担太大的计算量。

模型

在这里插入图片描述
训练数据有三个信息<T,S,G>,T是目标向量 { w i , w i + 1 , . . . , w i + m − 1 } \{w_i, w_{i+1}, ..., w_{i+m−1}\} {wi​,wi+1​,...,wi+m−1​} ,s是整个句子向量表示 { w 1 , w 2 , . . . w i , . . . , w i + m , . . . w n } \{w_1, w_2, ...w_i, ..., w_{i+m}, ...w_n\} {w1​,w2​,...wi​,...,wi+m​,...wn​} , G是句子依存信息,G = (V,A,R),V是单词节点,A是邻接矩阵, A i j = 1 A_{ij}=1 Aij​=1 则表明 w i w_i wi​和 w j wj wj 间存在依存关系,R是标签矩阵,对应相应的标签类型
(1)The Contextual Encoder

首先是左侧的上下文编码层,目的是获取上下文信息,可以用两种方法,BILST和bert

bilsmt
在这里插入图片描述

bert
在这里插入图片描述

首先将训练数据转换成:“[CLS]” + sentence + “[SEP]” +
target mention + “[SEP]”,再将其编码输入获取上下文信息,得到:

在这里插入图片描述

h 1 , h 2 , . . . , h n h_1, h_2, ..., h_n h1​,h2​,...,hn​是句子序列的表示, h n + 2 , . . . , h n + 1 + m h_{n+2}, ..., h_{n+1+m} hn+2​,...,hn+1+m​是目标序列的表示。

(2)RGAT encoder

在这里插入图片描述

然后是左侧的RGAT层,其是基于语法的编码器,将语法信息融入到句子建模过程中,生成具有语法感知的词嵌入。其是从斯坦福提出的GAT改进而来,GAT是通过融合依存关系到自我注意层来编码,比如 x 1 , x 2 , . . . , x n {x_1, x_2, ..., x_n} x1​,x2​,...,xn​作为输入,初始隐藏状态 { h 1 0 , h 2 0 , . . . , h n 0 } \{h^0_1, h^0_2, ..., h^0_n\} {h10​,h20​,...,hn0​},,设置多层GAT提取抽象特征,每一层GAT的输入为上一层输出的状态 { h 1 l − 1 , h 2 l − 2 , . . . , h n l − 1 } \{h^{l-1}_1, h^{l-2}_2, ..., h^{l-1}_n\} {h1l−1​,h2l−2​,...,hnl−1​}以及邻接矩阵A,输出 { h 1 l , h 2 l , . . . , h n l } \{h^{l}_1, h^{l}_2, ..., h^{l}_n\} {h1l​,h2l​,...,hnl​}

对于单词 w i w_i wi​通过邻接矩阵获取其邻居 w j w_j wj​(即有依存关系的单词),GAT通过计算邻接节点状态的权重和来更新 w i w_i wi​的表示,这个过程称为特征聚合,是个多头关系感知注意机制,公式如下

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

该机制后面添加了point-wise convolution transformation(PCT),卷积核大小为1,
在这里插入图片描述

目的是给每个节点提供了更多的信息容量。

RGAT

可以看到上述的GAT只是用了邻接矩阵作为依存关系的信息,忽略了依赖关系标签,RGAT向注意力机制融合了依存标签,获得更多的特征信息,其计算了两个注意力权重

节点感知注意力权重:

在这里插入图片描述

关系感知注意力权重:

在这里插入图片描述

其中 r i j r_{ij} rij​ 是单词i和单词j间的关系标签向量,再把两个权重结合在一起
在这里插入图片描述

这样得到的注意力得分同时考虑了节点特征和关系特征。

最后再将 h i l − 1 h^{l-1}_i hil−1​对应的邻居 h j l − 1 h^{l-1}_j hjl−1​ 和对应的关系向量进行拼接计算得到 h i l h^{l}_i hil​

在这里插入图片描述

注意文章采用了多层的这样的关系图注意网络。

The Feature Fusion mechanism

中间的的特征融合机制是为了动态地结合上下文和句法表示

首先是对RGAT和contextual encoder得到的结果进行pool操作

在这里插入图片描述

为了学习同时包含上下文和语法特征的复合表示,引入细粒度特征融合机制来控制融合。
在这里插入图片描述

在这里插入图片描述

最后进行分类

在这里插入图片描述

通过扩展一个具有关系特征的图注意网络编码器,研究了类型依赖结构在目标情感分类中的应用,通过各个实验证明其有效。

总结

文章的主要创新点就是不仅是利用了是否有依存关系,也引入了依存关系种类,同时把上下文编码与语法编码分开建模利于并行计算,同时避免了上下文信息的丢失,文章的实验做得很全,通过单自变量设置证明了每一点创新处的有效性,另外觉得它的背景介绍写得很好…总结得挺完善的。

标签:...,依存关系,Syntactic,Typed,GAT,wi,单词,上下文
来源: https://blog.csdn.net/sydney__/article/details/119188361