【ACL2020】用于改进文本分类的特征投影
作者:互联网
作者:云不见
学校:华南师范大学
paper:Feature Projection for Improved Text Classification. ACL 2020
Link:https://www.aclweb.org/anthology/2020.acl-main.726/
code:https://github.com/Qqinmaster/FP-Net/md
TL; DR
- 在情感分类中,一些good features,比如”good“、”nice“表示积极,”bad“、“terrible”表示消极。但是,还有许多common features,比如voice、screen就没有特别的情感性。
- 尽管深度学习拥有强大的representation learning(表征学习,即同一个数据用不同的表示形式)。但我们认为还有可以改进的地方。
- 在本文中,我们提出了一种新的角度来进一步改善这种表示学习,即特征投影(feature projection):将现有特征投影到common特征的正交空间中。
- 所得的投影向量垂直于common特征,能更好的进行分类。
- 将该方法用于改进基于CNN,RNN,Transformer和Bert的文本分类模型,获得更好的结果。
网络结构
Feature Purification Network 特征净化网络
模型分为两部分:
- projection network (P-net);
- common feature learning network (C-net)
- P-net:计算净化的向量特征,通过将学习到的输入文本的信息向量投影到更具区分性的语义空间中来消除共同特征的影响。
- C-net:提取common features。
P-net由四部分组成:
- 输入层X
- 特征提取器Fp
- 正交投影层(OPL,Orthogonal Projection Layer)
- 分类层Cp
C-net也由四部分组成:
- 输入层X
- 特征提取器Fc(Fp和Fc的参数不共享)
- 渐变反向层(GRL,Gradient Reverse Layer)
- 分类层Cc
技术的关键思想如下:
P-Net中特征向量fp投影到C-Net的fc的正交方向上。也就是说,将fp(从输入文档中提取的完整信息)投影到更具区分性的语义空间中,以进行最终分类。
图2:正交投影层的工作方式。这里的示例是在二维空间中。
- fp表示传统特征向量;
- fc表示公共特征向量;
- fp∗是投影特征向量;
- fp~是最终的正交投影特征向量。
- 我们首先将传统特征向量fp投影到共同特征向量fc,得到fp∗。
等式9中的fp∗即表示对共同特征向量fc的约束。
- 再将fp投影到fp-fp*得到fp~
也就是说:通过将输入的传统特征向量fp投影到公共特征向量fc来限制公共特征向量的模,因此新的公共特征向量fp*的语义信息仅包含xi的公共语义信息。
这使得最终的纯化特征向量fp~来自传统特征向量fp,而不是与公共特征向量fc正交的任何平面中的任何向量。
最后,我们使用纯化的特征向fp~进行分类。
Experiments实验
1 实验使用数据集
2 Baselines模型
用LSTM、CNN、Transformer和BERT等基准模型进行对比实验,已验证特征投射的有效性。
3 实施细节
首先,我们将实验中的所有词嵌入随机初始化为200维向量,然后在训练过程中进行修改(Bert除外)。对于每种类型的特征提取器,我们具有以下配置:
- 对于RNN模型,使用两层LSTM进行特征提取,每层的hidden state=256;
- 对于CNN模型,为了获得更多的细粒度特征,我们分别使用了[2,3,4,5,6]的滤波器大小,每个滤波器都有100个特征图。
- 对于Transformer的模型,我们使用Transformer的编码器作为特征提取器,使用单头和3个block。
- 对于Bert模型,我们微调了预训练的基于Bert的参数。这些设置与FP-Net中的基线完全相同。
在C-net模块的训练中,我们以0.9为初始学习率的随机梯度和随后的退火学习率(Ganin and Lempitsky,2014)。
其中,训练进度p从0线性变化为1,l0 = 0.01,α= 10和β= 0.75。在GRL中,超参数λ为[0.05,0.1,0.2,0.4,0.8,1.0]。
4 实验结果5 消融实验与分析
消融实验类似于“控制变量法”。假设在某任务中,使用了A,B,C,取得了不错的效果,但是这个时候你并不知道效果是由A,B,C中哪一个起的作用,于是你保留A,B,移除C进行实验来看一下C在整个任务中所起的作用。
结论
- 在本文中,我们提出了一种新的特征净化网络(FP-Net),以改进文本分类的表示;
- 该方法基于特征投影。所提出的模型使用两个子网,一个用于识别对分类没有区别的共同特征common features,另一个用于将传统特征投射到共同特征的正交方向的特征投影;
- 我们当前的方法仅用于传统文本分类方法,例如LSTM,CNN和Transformer。在未来的工作中,我们将考虑将其扩展到基于图的方法(例如用于图形数据的GCN),以及扩展到基于生成的方法(例如用于对抗性学习的GAN)。
。
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
标签:fp,文本,特征向量,特征,分类,投影,net,ACL2020 来源: https://blog.51cto.com/u_15127535/2696907