META: Metadata-Empowered Weak Supervision for Text Classification,EMNLP2020
作者:互联网
本文考虑在弱监督文本分类情境下使用元数据(metadata),利用元数据作为一个额外的薄弱监督的来源。具体来说,本文将文本数据和元数据组织到一个文本丰富的网络中,并采用motif来捕获元数据的适当组合,并在迭代过程中对motif实例以及种子词进行排序,选择重要的motfi作为种子motif。
Introduction
除了文本信息之外,元数据信息(例如,作者、出版年份)在各个领域(例如,新闻文章、社交媒体帖子和科学论文)都可以广泛获得,它可以作为一个强大的、互补的弱监督来源。
元数据通常是多类型的,每种类型和类型组合可能具有非常不同的语义,可能并不同等重要。而且,即使是单一元数据类型中的实体也可能是嘈杂的。图1(a)中的例子指出,在进行单纯的文本分类时,年份没有作者那么有用,因为一个作者和可能专注于一个领域,其领域对分类的结果具有明显的正向作用。
但是,如果将作者与year进行关联,它具有更准确的语义,我们可能会发现J. Dean近年来对机器学习更感兴趣,所以年份越近的文章更可能被分配到机器学习的标签。
这种元数据的组合pattern被称为motif,其实本质上是一个子图,代表着不同节点的一种聚合形式。比如图1©的motif就代表了一种合著关系。
因此,本文主要的贡献如下:
- 探索将元数据信息与种子词一起作为文本分类的弱监督的额外来源。
- 提出了一个新的META框架,捕获不同类型元数据之间的高阶组合,并对标签指示motif实例和单词进行统一排序和选择。
Preliminaries
给定一组文档 D = { D 1 , . . . D n } D=\{D_1,...D_n\} D={D1,...Dn},以及相应的元数据,本文为其构建一个text-rich network,如图1(b)所示。text-rich network是一种异构网络。
Seed Words and Motif Patterns
为了在弱监督的情境下判断文档的类别,用户需要为每一个class给定一组种子词
S
=
{
S
1
w
,
.
.
.
S
l
w
}
S=\{S_1^w,...S_l^w\}
S={S1w,...Slw},以及
k
k
k个motif patterns
M
=
{
M
1
,
.
.
.
,
M
k
}
M=\{M_1, ... ,M_k\}
M={M1,...,Mk},motif能够捕获语义和节点之间的高阶关联。同种子词一样,每一个类别需要给定种子motif
{
S
1
m
,
.
.
.
S
l
m
}
\{S_1^m,...S_l^m\}
{S1m,...Slm}。
考虑到文本丰富的网络和用户提供的种子词和motif模式作为输入,本文的目标是构建一个高质量的文档分类器,将一个类标签
C
j
C_j
Cj分配给每个文档
D
i
D_i
Di。
Our META Framework
一般弱监督方法都是一个迭代的过程,本文提出的框架如图所示。一次迭代包含如下三个步骤:
- 通过种子生成伪标签。
- 使用伪标签训练一个分类器。
- 排列和选择单词和motif实例来扩展种子,
本文中迭代次数 T T T是唯一的超参数。
Pseudo Labels and Text Classifier
基于种子词、种子motif实例以及它们各自对每个类的排名分数,我们为未标记的文本文档生成伪标签,并基于这些伪标签训练分类器。在第一次迭代中,没有种子motif实例,所有种子词的排名分数都是1。
Pseudo-Label Generation。给定文档
D
i
D_i
Di,它属于类l的概率与其各自种子词和种子motif实例的综合排名分数成正比:
其中
f
D
i
,
w
f_{D_i,w}
fDi,w表示单词
w
w
w在文档
D
i
D_i
Di中的词频,然后伪标签是概率最高的
P
P
P对应的类别:
Document Classifier。至于分类,则使用了HAN作为分类器,因为是长文本所以Bert表现不佳。HAN的结果如下所示,便不赘述了:
Unified Seed Ranking and Expansion
在经过一次预测之后,将每个类的单词和motif实例排列在一起。然后,通过添加排名靠前的单词和motif实例来扩展种子集。这提高了迭代中的弱监督的质量,从而改进了文本分类器。
Ranking Score Design。一个特定类的理想种子词或motif实例应该与这个类高度相关并高度排外。给定
k
k
k个用户提供的motif种子,每个种子都先构建一个对应的二部图
G
1
B
,
.
.
.
G
k
B
G_1^B,...G_k^B
G1B,...GkB,如图4所示:
二部图的节点由motif pattern对应的实例以及文档构成。假如某个motif是对应文档的元数据的子集,那么说明该motif实例应该有边与文档相连。类似的,文档-词之间也存在类似的二部图关系。
对于每一个motif
M
M
M,每一个标签都需要获取一个二部图
G
B
G^B
GB的personalized
random walk。具体来说,将二部图
G
B
G^B
GB的邻接矩阵的每一列按其各自节点的度进行归一化,得到过渡矩阵
W
W
W。
p
l
,
u
p_{l,u}
pl,u表示每个节点
u
u
u对每个标签
l
l
l的个性化PageRank (PPR)得分。在初始化时,文档节点设置为
Y
^
i
,
l
\hat Y_{i,l}
Y^i,l,motif则设置为0。这个初始化确保了随机遍历从一个文档节点开始,并且由于
G
B
G^B
GB是二部的,所以它在一个motif实例节点结束。游走的过程如下所示:
最终,PPR scores得分的大小表现了不同motif对相应文档标签的亲和力,将这些PPR得分归一化,得到motif的排序得分:
此评分基础上,也对词-文档的二部图进行排序,并对种子词集和种子母题集进行扩展。
Expansion。给定每个标签的所有单词和主题实例的排名分数,同时为所有标签扩展种子单词和种子motif。直观来说,一个主题种子词或是motif应该仅仅属于一个类,为了避免产生歧义。当任何motif实例被扩展为多个类的种子集时,我们将停止相应motif模式的motif实例的扩展。
Experiments
对于两个不同的数据集需要采用不一样的motif,因为motif都是人为定义的。
而种子词根据5个专家判定,每个类5个种子词,并基于多数投票(> 3推荐)选择最终的种子词。
实验结果:
迭代次数与种子数量对结果的影响:
种子词数量随着迭代次数增加的变化:
标签:...,motif,Classification,Text,Empowered,实例,文档,种子,标签 来源: https://blog.csdn.net/qq_36618444/article/details/122762997