其他分享
首页 > 其他分享> > 笔记:Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

笔记:Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

作者:互联网

Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

作者:Zhou P.ACL 2016.

目录

1 Abstract

论文的产出首先就要发现问题,接着针对问题分析产生idea,进而解决问题出成果。那么本文作者主要针对两个问题:(1) 之前的关系抽取/分类,如Zeng D et al.2014.\(^{[3]}\)仍然依赖一些人工特征,如lexical features、position features。(2) 对于句子中的重要信息的位置具有随机性,可能出现在任意一个位置。

提出基于attension的模型,不在依赖人工特征,且attention能够提取句子中的重要信息。

2 Model

结构如图Figure1. 这篇paper所提出的模型主要包含五个部分:(1) 输入层:本文作者仅使用一个带有位置标识(e.g. The founderof the Mircrosoft is BiilGates)的原生句子作为输入,没有依赖其他任何人工特征或外部信息。(2) embedding层:把每个word映射到低维向量空间中。(3) LSTM层:利用BLSTM通过步骤(2) 得到更高维的特征提取。(4) Attention 层:产生一个权重向量并且通过hidden state序列与att_weight矩阵相乘将词级别的特征整合为句子级别的特征向量。(5) 输出层:句子级别的特征向量最终被用于关系分类。

2.1 Word Embeddings

直接用预训练的word embedding,复现时用的是glove.6B.100d.txt。

2.3 Attention

如下公式清晰明了,就是一个典型的Soft-Attention,相似度计算采用点积的方式即\(K\cdot{Q}\), H为LSTM输出hidden state、w为权重矩阵、r为句子标识即对H的加权attention求和之后r又做了个非线性变换喂给dense层通过使用softmax分类器做分类。

3 Experiments

paper结果:F1 score = 0.840,具体参数配置详见原文

4 Conclusion

“该模型利用了典型的注意力机制对 BiLSTM 的输出进行了注意力加权求和,在仅利用了词向量的情况下效果接近加入人工特征的模型,可见注意力机制的作用也是十分强大的。从论文的结果来看,不进行特征工程,仅仅将整个句子作为模型输入,并加入注意力机制,模型效果得到了非常大的提高,一方面说明必要的特征工程还是有效的,另一方面表明注意力机制也起到了十分明显的作用\(^{[2]}\)。”

参考

[1] Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi∗, Bingchen Li, Hongwei Hao, Bo Xu.Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification.ACL 2016.

[2] 西多士NLP.信息抽取-关系抽取.博客园 2019.https://www.cnblogs.com/sandwichnlp/p/12020066.html.

[3] Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou and Jun Zhao.Relation Classification via Convolutional Deep Neural Network.COLING 2014.

标签:Term,Short,Based,Classification,特征,模型,Attention,Relation,句子
来源: https://www.cnblogs.com/n-ooo/p/15959346.html