其他分享
首页 > 其他分享> > META: Metadata-Empowered Weak Supervision for Text Classification,EMNLP2020

META: Metadata-Empowered Weak Supervision for Text Classification,EMNLP2020

作者:互联网

在这里插入图片描述
本文考虑在弱监督文本分类情境下使用元数据(metadata),利用元数据作为一个额外的薄弱监督的来源。具体来说,本文将文本数据和元数据组织到一个文本丰富的网络中,并采用motif来捕获元数据的适当组合,并在迭代过程中对motif实例以及种子词进行排序,选择重要的motfi作为种子motif。

Introduction

除了文本信息之外,元数据信息(例如,作者、出版年份)在各个领域(例如,新闻文章、社交媒体帖子和科学论文)都可以广泛获得,它可以作为一个强大的、互补的弱监督来源。
在这里插入图片描述
元数据通常是多类型的,每种类型和类型组合可能具有非常不同的语义,可能并不同等重要。而且,即使是单一元数据类型中的实体也可能是嘈杂的。图1(a)中的例子指出,在进行单纯的文本分类时,年份没有作者那么有用,因为一个作者和可能专注于一个领域,其领域对分类的结果具有明显的正向作用。
但是,如果将作者与year进行关联,它具有更准确的语义,我们可能会发现J. Dean近年来对机器学习更感兴趣,所以年份越近的文章更可能被分配到机器学习的标签。
这种元数据的组合pattern被称为motif,其实本质上是一个子图,代表着不同节点的一种聚合形式。比如图1©的motif就代表了一种合著关系。
因此,本文主要的贡献如下:

Preliminaries

给定一组文档 D = { D 1 , . . . D n } D=\{D_1,...D_n\} D={D1​,...Dn​},以及相应的元数据,本文为其构建一个text-rich network,如图1(b)所示。text-rich network是一种异构网络。

Seed Words and Motif Patterns

为了在弱监督的情境下判断文档的类别,用户需要为每一个class给定一组种子词 S = { S 1 w , . . . S l w } S=\{S_1^w,...S_l^w\} S={S1w​,...Slw​},以及 k k k个motif patterns M = { M 1 , . . . , M k } M=\{M_1, ... ,M_k\} M={M1​,...,Mk​},motif能够捕获语义和节点之间的高阶关联。同种子词一样,每一个类别需要给定种子motif { S 1 m , . . . S l m } \{S_1^m,...S_l^m\} {S1m​,...Slm​}。
考虑到文本丰富的网络和用户提供的种子词和motif模式作为输入,本文的目标是构建一个高质量的文档分类器,将一个类标签 C j C_j Cj​分配给每个文档 D i D_i Di​。

Our META Framework

在这里插入图片描述
一般弱监督方法都是一个迭代的过程,本文提出的框架如图所示。一次迭代包含如下三个步骤:

本文中迭代次数 T T T是唯一的超参数。

Pseudo Labels and Text Classifier

基于种子词、种子motif实例以及它们各自对每个类的排名分数,我们为未标记的文本文档生成伪标签,并基于这些伪标签训练分类器。在第一次迭代中,没有种子motif实例,所有种子词的排名分数都是1。
Pseudo-Label Generation。给定文档 D i D_i Di​,它属于类l的概率与其各自种子词和种子motif实例的综合排名分数成正比:
在这里插入图片描述
其中 f D i , w f_{D_i,w} fDi​,w​表示单词 w w w在文档 D i D_i Di​中的词频,然后伪标签是概率最高的 P P P对应的类别:
在这里插入图片描述
Document Classifier。至于分类,则使用了HAN作为分类器,因为是长文本所以Bert表现不佳。HAN的结果如下所示,便不赘述了:
在这里插入图片描述

Unified Seed Ranking and Expansion

在经过一次预测之后,将每个类的单词和motif实例排列在一起。然后,通过添加排名靠前的单词和motif实例来扩展种子集。这提高了迭代中的弱监督的质量,从而改进了文本分类器。
Ranking Score Design。一个特定类的理想种子词或motif实例应该与这个类高度相关并高度排外。给定 k k k个用户提供的motif种子,每个种子都先构建一个对应的二部图 G 1 B , . . . G k B G_1^B,...G_k^B G1B​,...GkB​,如图4所示:
在这里插入图片描述
二部图的节点由motif pattern对应的实例以及文档构成。假如某个motif是对应文档的元数据的子集,那么说明该motif实例应该有边与文档相连。类似的,文档-词之间也存在类似的二部图关系。
对于每一个motif M M M,每一个标签都需要获取一个二部图 G B G^B GB的personalized
random walk。具体来说,将二部图 G B G^B GB的邻接矩阵的每一列按其各自节点的度进行归一化,得到过渡矩阵 W W W。 p l , u p_{l,u} pl,u​表示每个节点 u u u对每个标签 l l l的个性化PageRank (PPR)得分。在初始化时,文档节点设置为 Y ^ i , l \hat Y_{i,l} Y^i,l​,motif则设置为0。这个初始化确保了随机遍历从一个文档节点开始,并且由于 G B G^B GB是二部的,所以它在一个motif实例节点结束。游走的过程如下所示:
在这里插入图片描述
最终,PPR scores得分的大小表现了不同motif对相应文档标签的亲和力,将这些PPR得分归一化,得到motif的排序得分:
在这里插入图片描述
此评分基础上,也对词-文档的二部图进行排序,并对种子词集和种子母题集进行扩展。
Expansion。给定每个标签的所有单词和主题实例的排名分数,同时为所有标签扩展种子单词和种子motif。直观来说,一个主题种子词或是motif应该仅仅属于一个类,为了避免产生歧义。当任何motif实例被扩展为多个类的种子集时,我们将停止相应motif模式的motif实例的扩展。

Experiments

在这里插入图片描述
对于两个不同的数据集需要采用不一样的motif,因为motif都是人为定义的。
在这里插入图片描述
而种子词根据5个专家判定,每个类5个种子词,并基于多数投票(> 3推荐)选择最终的种子词。
实验结果:
在这里插入图片描述
迭代次数与种子数量对结果的影响:
在这里插入图片描述
种子词数量随着迭代次数增加的变化:
在这里插入图片描述

标签:...,motif,Classification,Text,Empowered,实例,文档,种子,标签
来源: https://blog.csdn.net/qq_36618444/article/details/122762997