首页 > 其他分享> > 《Investigating Typed Syntactic Dependencies for TSC Using GAT》论文笔记

《Investigating Typed Syntactic Dependencies for TSC Using GAT》论文笔记

2021-07-28 20:00:01 作者：互联网

论文题目：Investigating Typed Syntactic Dependencies for Targeted Sentiment Classification Using Graph Attention Neural Network

概览

该文章认为依存句法信息能作为一种外部有用知识帮模型找到目标对应的情感词，依存句法信息即对句子建立的语法图，比如下图
在这里插入图片描述

该文章就利用了这种单词之间的关系来帮助衡量上下文单词对目标单词的重要性，其主要研究的是如何利用语法依存关系来进行更有针对性的情感分类，提出用graph attention network(GAN)集成依存关系，用一种新的注意力函数来帮助目标更好地抓住有用的上下文信息，同时用依存标签丰富单词的表示(即不仅考虑了单词间是否存在关系也考虑了关系的类型，其模型主要有以下两点不同：

（1）利用语法依赖关系

（2）用两个独立的编码器来建模，结构编码器可拆卸，并且可以相对容易地应用于新的序列编码器模型，它可以减少自动解析的依赖树的错误传播。(即下图架构中分为左右两个编码器，上下文编码与语法编码分开计算，最后再聚合)，这种结构还可以并行计算，不会承担太大的计算量。

模型

在这里插入图片描述
训练数据有三个信息<T,S,G>，T是目标向量 { w i , w i + 1 , . . . , w i + m − 1 } \{w_i, w_{i+1}, ..., w_{i+m−1}\} {wi,wi+1,...,wi+m−1} ，s是整个句子向量表示 { w 1 , w 2 , . . . w i , . . . , w i + m , . . . w n } \{w_1, w_2, ...w_i, ..., w_{i+m}, ...w_n\} {w1,w2,...wi,...,wi+m,...wn} , G是句子依存信息，G = (V,A,R)，V是单词节点，A是邻接矩阵， A i j = 1 A_{ij}=1 Aij=1 则表明 w i w_i wi和 w j wj wj 间存在依存关系，R是标签矩阵，对应相应的标签类型
（1）The Contextual Encoder

首先是左侧的上下文编码层，目的是获取上下文信息，可以用两种方法，BILST和bert

bilsmt
在这里插入图片描述

bert
在这里插入图片描述

首先将训练数据转换成：“[CLS]” + sentence + “[SEP]” +
target mention + “[SEP]”，再将其编码输入获取上下文信息，得到：

在这里插入图片描述

h 1 , h 2 , . . . , h n h_1, h_2, ..., h_n h1,h2,...,hn是句子序列的表示， h n + 2 , . . . , h n + 1 + m h_{n+2}, ..., h_{n+1+m} hn+2,...,hn+1+m是目标序列的表示。

（2）RGAT encoder

在这里插入图片描述

然后是左侧的RGAT层，其是基于语法的编码器，将语法信息融入到句子建模过程中，生成具有语法感知的词嵌入。其是从斯坦福提出的GAT改进而来，GAT是通过融合依存关系到自我注意层来编码，比如 x 1 , x 2 , . . . , x n {x_1, x_2, ..., x_n} x1,x2,...,xn作为输入，初始隐藏状态 { h 1 0 , h 2 0 , . . . , h n 0 } \{h^0_1, h^0_2, ..., h^0_n\} {h10,h20,...,hn0}，，设置多层GAT提取抽象特征，每一层GAT的输入为上一层输出的状态 { h 1 l − 1 , h 2 l − 2 , . . . , h n l − 1 } \{h^{l-1}_1, h^{l-2}_2, ..., h^{l-1}_n\} {h1l−1,h2l−2,...,hnl−1}以及邻接矩阵A，输出 { h 1 l , h 2 l , . . . , h n l } \{h^{l}_1, h^{l}_2, ..., h^{l}_n\} {h1l,h2l,...,hnl}

对于单词 w i w_i wi通过邻接矩阵获取其邻居 w j w_j wj（即有依存关系的单词），GAT通过计算邻接节点状态的权重和来更新 w i w_i wi的表示，这个过程称为特征聚合，是个多头关系感知注意机制，公式如下

在这里插入图片描述