首页 > 其他分享> > 笔记：Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

笔记：Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

2022-03-03 13:33:04 作者：互联网

Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

作者：Zhou P.ACL 2016.

1 Abstract

论文的产出首先就要发现问题，接着针对问题分析产生idea，进而解决问题出成果。那么本文作者主要针对两个问题：(1) 之前的关系抽取/分类，如Zeng D et al.2014.\(^{[3]}\)仍然依赖一些人工特征，如lexical features、position features。(2) 对于句子中的重要信息的位置具有随机性，可能出现在任意一个位置。

提出基于attension的模型，不在依赖人工特征，且attention能够提取句子中的重要信息。

2 Model

结构如图Figure1. 这篇paper所提出的模型主要包含五个部分：(1) 输入层：本文作者仅使用一个带有位置标识(e.g. The founderof the Mircrosoft is BiilGates)的原生句子作为输入，没有依赖其他任何人工特征或外部信息。(2) embedding层：把每个word映射到低维向量空间中。(3) LSTM层：利用BLSTM通过步骤(2) 得到更高维的特征提取。(4) Attention 层：产生一个权重向量并且通过hidden state序列与att_weight矩阵相乘将词级别的特征整合为句子级别的特征向量。(5) 输出层：句子级别的特征向量最终被用于关系分类。

2.1 Word Embeddings

直接用预训练的word embedding，复现时用的是glove.6B.100d.txt。

2.3 Attention

如下公式清晰明了，就是一个典型的Soft-Attention，相似度计算采用点积的方式即\(K\cdot{Q}\), H为LSTM输出hidden state、w为权重矩阵、r为句子标识即对H的加权attention求和之后r又做了个非线性变换喂给dense层通过使用softmax分类器做分类。

3 Experiments

paper结果：F1 score = 0.840，具体参数配置详见原文

4 Conclusion

“该模型利用了典型的注意力机制对 BiLSTM 的输出进行了注意力加权求和，在仅利用了词向量的情况下效果接近加入人工特征的模型，可见注意力机制的作用也是十分强大的。从论文的结果来看，不进行特征工程，仅仅将整个句子作为模型输入，并加入注意力机制，模型效果得到了非常大的提高，一方面说明必要的特征工程还是有效的，另一方面表明注意力机制也起到了十分明显的作用\(^{[2]}\)。”

参考

[1] Peng Zhou, Wei Shi, Jun Tian, Zhenyu Qi∗, Bingchen Li, Hongwei Hao, Bo Xu.Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification.ACL 2016.

[2] 西多士NLP.信息抽取-关系抽取.博客园 2019.https://www.cnblogs.com/sandwichnlp/p/12020066.html.

[3] Daojian Zeng, Kang Liu, Siwei Lai, Guangyou Zhou and Jun Zhao.Relation Classification via Convolutional Deep Neural Network.COLING 2014.

标签：Term,Short,Based,Classification,特征,模型,Attention,Relation,句子
来源： https://www.cnblogs.com/n-ooo/p/15959346.html