其他分享
首页 > 其他分享> > 【ACL2020】用于改进文本分类的特征投影

【ACL2020】用于改进文本分类的特征投影

作者:互联网

图片

作者:云不见

学校:华南师范大学

paper:Feature Projection for Improved Text Classification. ACL 2020

Link:https://www.aclweb.org/anthology/2020.acl-main.726/

code:https://github.com/Qqinmaster/FP-Net/md

TL; DR

  1. 在情感分类中,一些good features,比如”good“、”nice“表示积极,”bad“、“terrible”表示消极。但是,还有许多common features,比如voice、screen就没有特别的情感性。
  2. 尽管深度学习拥有强大的representation learning(表征学习,即同一个数据用不同的表示形式)。但我们认为还有可以改进的地方。
  3. 在本文中,我们提出了一种新的角度来进一步改善这种表示学习,即特征投影(feature projection):将现有特征投影到common特征的正交空间中。
  4. 所得的投影向量垂直于common特征,能更好的进行分类。
  5. 将该方法用于改进基于CNN,RNN,Transformer和Bert的文本分类模型,获得更好的结果。

网络结构

Feature Purification Network 特征净化网络

图片模型分为两部分:

  1. projection network (P-net);
  2. common feature learning network (C-net)

P-net由四部分组成:

C-net也由四部分组成:

技术的关键思想如下:

P-Net中特征向量fp投影到C-Net的fc的正交方向上。也就是说,将fp(从输入文档中提取的完整信息)投影到更具区分性的语义空间中,以进行最终分类。

图片

图2:正交投影层的工作方式。这里的示例是在二维空间中。

  1. 我们首先将传统特征向量fp投影到共同特征向量fc,得到fp∗。

图片

等式9中的fp∗即表示对共同特征向量fc的约束。

  1. 再将fp投影到fp-fp*得到fp~

图片

也就是说:通过将输入的传统特征向量fp投影到公共特征向量fc来限制公共特征向量的模,因此新的公共特征向量fp*的语义信息仅包含xi的公共语义信息。

这使得最终的纯化特征向量fp~来自传统特征向量fp,而不是与公共特征向量fc正交的任何平面中的任何向量。

最后,我们使用纯化的特征向fp~进行分类。

image.png

Experiments实验

1 实验使用数据集

image.png

2 Baselines模型

用LSTM、CNN、Transformer和BERT等基准模型进行对比实验,已验证特征投射的有效性。

3 实施细节

首先,我们将实验中的所有词嵌入随机初始化为200维向量,然后在训练过程中进行修改(Bert除外)。对于每种类型的特征提取器,我们具有以下配置:

  1. 对于RNN模型,使用两层LSTM进行特征提取,每层的hidden state=256;
  2. 对于CNN模型,为了获得更多的细粒度特征,我们分别使用了[2,3,4,5,6]的滤波器大小,每个滤波器都有100个特征图。
  3. 对于Transformer的模型,我们使用Transformer的编码器作为特征提取器,使用单头和3个block。
  4. 对于Bert模型,我们微调了预训练的基于Bert的参数。这些设置与FP-Net中的基线完全相同。

在C-net模块的训练中,我们以0.9为初始学习率的随机梯度和随后的退火学习率(Ganin and Lempitsky,2014)。

图片

其中,训练进度p从0线性变化为1,l0 = 0.01,α= 10和β= 0.75。在GRL中,超参数λ为[0.05,0.1,0.2,0.4,0.8,1.0]。

4 实验结果image.png5 消融实验与分析

消融实验类似于“控制变量法”。假设在某任务中,使用了A,B,C,取得了不错的效果,但是这个时候你并不知道效果是由A,B,C中哪一个起的作用,于是你保留A,B,移除C进行实验来看一下C在整个任务中所起的作用。

image.png

图片

结论

  1. 在本文中,我们提出了一种新的特征净化网络(FP-Net),以改进文本分类的表示;
  2. 该方法基于特征投影。所提出的模型使用两个子网,一个用于识别对分类没有区别的共同特征common features,另一个用于将传统特征投射到共同特征的正交方向的特征投影;
  3. 我们当前的方法仅用于传统文本分类方法,例如LSTM,CNN和Transformer。在未来的工作中,我们将考虑将其扩展到基于图的方法(例如用于图形数据的GCN),以及扩展到基于生成的方法(例如用于对抗性学习的GAN)。






投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

图片


标签:fp,文本,特征向量,特征,分类,投影,net,ACL2020
来源: https://blog.51cto.com/u_15127535/2696907