NLP中那些没用的idea
作者:互联网
前言
- 文章来源:CSDN@LawsonAbs
科研的每一天都会有一些idea涌入脑海,但是这些想法真的有用吗?下面就分析一下那些时常以为是自己的灵光一现,但仔细分析后却发现是失败品的idea。
1. 分类时 threshold
的设置
我们在做多分类时,我们时常会考虑如下一个问题,就是对于一个多分类,我们就很直接使用一个threshold来对最后的分类值进行过滤,但有个想法就是:如果针对每个分类都有一个threshold,那么效果会好一些吗?
但实际问题是:我们最后分类值中是有一个bias
用于调整。例如在一个三分类问题上:即:
y
=
W
x
+
b
y=Wx+b
y=Wx+b
其中
W
768
∗
3
W^{768*3}
W768∗3,
x
1
∗
768
x^{1*768}
x1∗768,
b
1
∗
3
b^{1*3}
b1∗3,
y
1
∗
3
y^{1*3}
y1∗3。
使用的threshold
假设为0.5,那么其实最后的bias 在不同的分类上有着不同的贡献,所以说这么想的idea其实没啥效果。
但是在一篇名叫 Document-Level Relation Extraction with Adaptive Thresholding and Localized Context 中提出了 adpative threshold
的方法。其具体思想是:
2. 图+BERT
动态创建图,然后执行训练的过程效果不好,于是我想,能不能先用BERT训练到一段时间,然后将Bert 学习到的结果预测分类,然后再创建图,进行一个RGCN的训练,但其实整个过程效果并不好。
上图是使用纯RGCN网络训练,得到的效果是值还可以。
但是如果先使用 BERT+MLP 训练一定epoch后再经过 RGCN 训练得到的结果如下:
坐下半部分使用的是MLP训练,右上部分使用的是 RGCN 网络
标签:NLP,768,训练,没用,分类,idea,threshold,RGCN 来源: https://blog.csdn.net/liu16659/article/details/121973798