其他分享
首页 > 其他分享> > NLP中那些没用的idea

NLP中那些没用的idea

作者:互联网

前言


科研的每一天都会有一些idea涌入脑海,但是这些想法真的有用吗?下面就分析一下那些时常以为是自己的灵光一现,但仔细分析后却发现是失败品的idea。

1. 分类时 threshold 的设置

我们在做多分类时,我们时常会考虑如下一个问题,就是对于一个多分类,我们就很直接使用一个threshold来对最后的分类值进行过滤,但有个想法就是:如果针对每个分类都有一个threshold,那么效果会好一些吗?

但实际问题是:我们最后分类值中是有一个bias用于调整。例如在一个三分类问题上:即: y = W x + b y=Wx+b y=Wx+b
其中 W 768 ∗ 3 W^{768*3} W768∗3, x 1 ∗ 768 x^{1*768} x1∗768, b 1 ∗ 3 b^{1*3} b1∗3, y 1 ∗ 3 y^{1*3} y1∗3。
使用的threshold假设为0.5,那么其实最后的bias 在不同的分类上有着不同的贡献,所以说这么想的idea其实没啥效果。
但是在一篇名叫 Document-Level Relation Extraction with Adaptive Thresholding and Localized Context 中提出了 adpative threshold 的方法。其具体思想是:

2. 图+BERT

动态创建图,然后执行训练的过程效果不好,于是我想,能不能先用BERT训练到一段时间,然后将Bert 学习到的结果预测分类,然后再创建图,进行一个RGCN的训练,但其实整个过程效果并不好。
纯RGCN训练
上图是使用纯RGCN网络训练,得到的效果是值还可以。
但是如果先使用 BERT+MLP 训练一定epoch后再经过 RGCN 训练得到的结果如下:

在这里插入图片描述
坐下半部分使用的是MLP训练,右上部分使用的是 RGCN 网络

标签:NLP,768,训练,没用,分类,idea,threshold,RGCN
来源: https://blog.csdn.net/liu16659/article/details/121973798