首页 > 其他分享> > META: Metadata-Empowered Weak Supervision for Text Classification，EMNLP2020

META: Metadata-Empowered Weak Supervision for Text Classification，EMNLP2020

2022-02-01 18:01:38 作者：互联网

在这里插入图片描述
本文考虑在弱监督文本分类情境下使用元数据（metadata），利用元数据作为一个额外的薄弱监督的来源。具体来说，本文将文本数据和元数据组织到一个文本丰富的网络中，并采用motif来捕获元数据的适当组合，并在迭代过程中对motif实例以及种子词进行排序，选择重要的motfi作为种子motif。

Introduction

除了文本信息之外，元数据信息(例如，作者、出版年份)在各个领域(例如，新闻文章、社交媒体帖子和科学论文)都可以广泛获得，它可以作为一个强大的、互补的弱监督来源。
在这里插入图片描述
元数据通常是多类型的，每种类型和类型组合可能具有非常不同的语义，可能并不同等重要。而且，即使是单一元数据类型中的实体也可能是嘈杂的。图1(a)中的例子指出，在进行单纯的文本分类时，年份没有作者那么有用，因为一个作者和可能专注于一个领域，其领域对分类的结果具有明显的正向作用。
但是，如果将作者与year进行关联，它具有更准确的语义，我们可能会发现J. Dean近年来对机器学习更感兴趣，所以年份越近的文章更可能被分配到机器学习的标签。
这种元数据的组合pattern被称为motif，其实本质上是一个子图，代表着不同节点的一种聚合形式。比如图1©的motif就代表了一种合著关系。
因此，本文主要的贡献如下：

探索将元数据信息与种子词一起作为文本分类的弱监督的额外来源。
提出了一个新的META框架，捕获不同类型元数据之间的高阶组合，并对标签指示motif实例和单词进行统一排序和选择。

Preliminaries

给定一组文档 D = { D 1 , . . . D n } D=\{D_1,...D_n\} D={D1,...Dn}，以及相应的元数据，本文为其构建一个text-rich network，如图1(b)所示。text-rich network是一种异构网络。

Seed Words and Motif Patterns

为了在弱监督的情境下判断文档的类别，用户需要为每一个class给定一组种子词 S = { S 1 w , . . . S l w } S=\{S_1^w,...S_l^w\} S={S1w,...Slw}，以及 k k k个motif patterns M = { M 1 , . . . , M k } M=\{M_1, ... ,M_k\} M={M1,...,Mk}，motif能够捕获语义和节点之间的高阶关联。同种子词一样，每一个类别需要给定种子motif { S 1 m , . . . S l m } \{S_1^m,...S_l^m\} {S1m,...Slm}。
考虑到文本丰富的网络和用户提供的种子词和motif模式作为输入，本文的目标是构建一个高质量的文档分类器，将一个类标签 C j C_j Cj分配给每个文档 D i D_i Di。

Our META Framework

在这里插入图片描述
一般弱监督方法都是一个迭代的过程，本文提出的框架如图所示。一次迭代包含如下三个步骤：

通过种子生成伪标签。
使用伪标签训练一个分类器。
排列和选择单词和motif实例来扩展种子，

本文中迭代次数 T T T是唯一的超参数。

Pseudo Labels and Text Classifier

基于种子词、种子motif实例以及它们各自对每个类的排名分数，我们为未标记的文本文档生成伪标签，并基于这些伪标签训练分类器。在第一次迭代中，没有种子motif实例，所有种子词的排名分数都是1。
Pseudo-Label Generation。给定文档 D i D_i Di，它属于类l的概率与其各自种子词和种子motif实例的综合排名分数成正比：
在这里插入图片描述
其中 f D i , w f_{D_i,w} fDi,w表示单词 w w w在文档 D i D_i Di中的词频，然后伪标签是概率最高的 P P P对应的类别：
在这里插入图片描述
Document Classifier。至于分类，则使用了HAN作为分类器，因为是长文本所以Bert表现不佳。HAN的结果如下所示，便不赘述了：

Unified Seed Ranking and Expansion

在经过一次预测之后，将每个类的单词和motif实例排列在一起。然后，通过添加排名靠前的单词和motif实例来扩展种子集。这提高了迭代中的弱监督的质量，从而改进了文本分类器。
Ranking Score Design。一个特定类的理想种子词或motif实例应该与这个类高度相关并高度排外。给定 k k k个用户提供的motif种子，每个种子都先构建一个对应的二部图 G 1 B , . . . G k B G_1^B,...G_k^B G1B,...GkB，如图4所示：
在这里插入图片描述
二部图的节点由motif pattern对应的实例以及文档构成。假如某个motif是对应文档的元数据的子集，那么说明该motif实例应该有边与文档相连。类似的，文档-词之间也存在类似的二部图关系。
对于每一个motif M M M，每一个标签都需要获取一个二部图 G B G^B GB的personalized
random walk。具体来说，将二部图 G B G^B GB的邻接矩阵的每一列按其各自节点的度进行归一化，得到过渡矩阵 W W W。 p l , u p_{l,u} pl,u表示每个节点 u u u对每个标签 l l l的个性化PageRank (PPR)得分。在初始化时，文档节点设置为 Y ^ i , l \hat Y_{i,l} Y^i,l，motif则设置为0。这个初始化确保了随机遍历从一个文档节点开始，并且由于 G B G^B GB是二部的，所以它在一个motif实例节点结束。游走的过程如下所示：
在这里插入图片描述
最终，PPR scores得分的大小表现了不同motif对相应文档标签的亲和力，将这些PPR得分归一化，得到motif的排序得分：

此评分基础上，也对词-文档的二部图进行排序，并对种子词集和种子母题集进行扩展。
Expansion。给定每个标签的所有单词和主题实例的排名分数，同时为所有标签扩展种子单词和种子motif。直观来说，一个主题种子词或是motif应该仅仅属于一个类，为了避免产生歧义。当任何motif实例被扩展为多个类的种子集时，我们将停止相应motif模式的motif实例的扩展。

Experiments

在这里插入图片描述
对于两个不同的数据集需要采用不一样的motif，因为motif都是人为定义的。

而种子词根据5个专家判定，每个类5个种子词，并基于多数投票(> 3推荐)选择最终的种子词。
实验结果：

迭代次数与种子数量对结果的影响：
在这里插入图片描述
种子词数量随着迭代次数增加的变化：

标签：...,motif,Classification,Text,Empowered,实例,文档,种子,标签
来源： https://blog.csdn.net/qq_36618444/article/details/122762997