首页 > 其他分享> > 论文-FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning

论文-FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning

2022-04-10 19:02:38 作者：互联网

论文地址：https://arxiv.org/pdf/2108.06332.pdf

代码地址：https://github.com/zhouj8553/FlipDA

0.摘要

　　大多数以前的文本数据扩充方法都局限于简单的任务和弱基线。

　　我们探索了在硬任务（即，few-shot的自然语言理解）和强基线（即，具有超过10亿个参数的预训练模型）上的数据扩充。在这种情况下，我们复制了大量以前的增强方法，发现这些方法最多只能带来边际收益，有时会严重降低性能。

　　为了应对这一挑战，我们提出了一种新的数据增强方法FlipDA，该方法联合使用生成模型和分类器来生成label-fiipped数据。FlipDA的核心思想是发现生成label-fiipped的数据比生成label-preserved的数据对性能更重要。

　　实验表明，FlipDA在有效性和鲁棒性之间取得了很好的折衷——它极大地改善了许多任务，同时又不会对其他任务产生负面影响。

1.引言

　　【以前方法】数据扩充是一种通过从给定数据生成新数据来扩充训练集的方法。对于文本数据，包括替换、插入、删除和shuffie在内的基本操作已被广泛采用，并集成到一系列扩展框架75、62、65、30和63中。生成性建模方法（如反译）也被用于生成扩充样本13、57。

　　【以前方法存在的问题】然而，之前的研究有两个主要局限性。首先，一些通用的增广方法基于弱基线，而不使用大规模预训练语言模型。最近的研究表明，当与大型预训练模型结合使用时，一些数据增强方法不太有用41。第二，以前的大多数研究都是在简单的任务上进行的，比如单句分类，这样更容易生成合法的扩充样本。对于更难的任务，如自然语言理解（例如，判断A句是否包含B句），目前尚不清楚以前的方法是否仍然有用。

　　【本文的研究点】在这项工作中，我们进一步研究了强基线和硬任务下的数据扩充。我们的研究采用了大规模的预训练语言模型，比如DeBERTa 20，以超过10亿个参数作为基线。此外，我们针对的是一个非常具有挑战性的环境，即自然语言理解（NLU）。我们考虑挑战性的NLU任务，包括问答、文本蕴涵、共指消解和词义消歧。我们采用了SuperGLUE，它包含了当前NLP方法中一些最难理解的语言理解任务。根据56，我们只使用了32个训练示例来构建few-shot环境。

　　【对比与结论】在此背景下，我们复制了大量广泛使用的数据增强方法。我们的实验带来了两个意想不到的发现：（1）以前的大多数增强方法最多只能带来边际收益，对大多数任务都不有效；（2）在许多情况下，使用数据扩充会导致性能不稳定，甚至进入故障模式failure mode；i、例如，性能可能会大幅下降或严重恶化，具体取决于使用的预训练模型。上述问题阻碍了这些增强方法在few-shot学习中的实际应用。

　　【本文方法】我们提出了一种新的FlipDA方法，该方法可以同时实现硬few-shot任务的有效性和鲁棒性。在初步实验中，我们观察到，与保留原始标签的增强数据相比，label-fiipped数据通常在很大程度上改善了预训练模型的泛化。基于这一观察，FlipDA首先使用基于预训练T5 48的单词替换生成数据，并使用分类器选择label-fiipped数据。

　　【方法效果】实验表明，FlipDA在许多困难任务上显著提高了性能，在平均性能方面大大优于以前的增强基线。此外，FlipDA在不同的预训练模型和不同的任务中都很健壮，避免了故障模式。

2.相关工作

①Data Augmentation数据扩充

　　【概念+以前方法概述】数据扩充的目的是增加训练数据量，然后利用它来提高模型的性能。基于词替换的增广方法有很多，例如同义词替换75、KNN替换62、58、unif替换65、tf idf替换65、bi rnn替换30等。同义词替换和KNN替换是其中最流行的。实体替换在问答49、意见挖掘43和实体检测72任务中非常有用。EDA 63结合了四种简单的增广方法（即同义词替换、随机删除、随机交换和随机插入），并在多个单句分类任务中取得了良好的效果。回译13，57被广泛使用，并成为机器翻译任务中的标准实践。回译也适用于问答任务。遗憾的是，EDA和反向翻译方法对于大型预训练模型来说用处不大。

　　【挑选一些方法，与本文的对比相同点和不同点，说明为什么不适合本文研究领域】

　　一些增强方法基于特征空间中的扰动，例如，mixup 73、17、Mixtext 3、LADA 2、Snippext 43和特征空间32中的其他增强方法。然而，我们观察到，在我们的环境下，使用这些方法的改进有限，这表明特征空间增强可能与预训练模型和硬NLU任务不太兼容。

　　人们提出了各种基于生成的增强方法。变分自动编码器64、38、55、70和去噪自动编码器44用于生成增强示例，但这些方法通常依赖于大量的训练数据，不适用于fewshot学习任务。沿着这个方向，CRQDA 40训练一个模型来产生可回答和不可回答的问题。提出了一种用于对话语言理解的序列到序列数据扩充方法22。与我们的方法相比，这些方法更具体于任务，不能直接应用于一般NLU任务。

　　此外，大型预训练模型已用于数据扩充。对于大数据，如GPT-31，使用条件增强模型。LAMBADA 1使用启动技术对GPT-2模型进行微调，以获得增强的示例。GPT3Mix 69使用GPT-3以及提示为分类任务生成增强数据。我们的方法与这项工作类似，因为我们也使用预训练模型来生成增强数据。然而，有以下主要区别。首先，对于这些之前的方法来说，处理长序列或多个句子是一个挑战。在我们的初步实验中，我们无法使用这些方法生成适当的数据样本（详见第4节）。其次，除了生成增强样本外，我们发现使用label-fiipped数据进行增强非常重要，这是FlipDA的一个独特而关键的方面。

②Self-training自训练

　　【概念+以前方法概述】自训练24是一种半监督学习算法，它用一个经过训练的模型（教师模型）标记未标记的数据，然后使用标记的数据和未标记的数据联合训练一个新模型（学生模型）。这个过程可能会重复几次。自训练应用于很多领域，包括语义消歧68、模式提取52、解析42、23、51、图像分类67、神经序列生成18、语音识别26等等。知识提炼和伪标记是自我训练的特殊形式21、34、50。76观察到，与预训练不同，自我训练有助于数据的增强。通过使用相等或更大的学生模型并向学生添加噪声，有噪声的学生66在ImageNet上获得了良好的结果。18得出结论，辍学对于序列生成任务中的自我训练很重要。45.建议使用学生在标记数据上的表现反馈来更新教师模型的参数。

　　【对比】自训练与FlipDA的第二阶段类似，在第二阶段中，教师模型用于选择样本。与以前的自训练方法不同，FlipDA发现并利用label-fiipped的有用性来提高性能，并且不依赖未标记的数据。此外，如第4节所示，FlipDA的数据选择策略优于一些基线，例如嘈杂的学生。

③Adversarial Attacks对抗性攻击

　　【概念+以前方法概述】对抗性攻击会在不影响原始样本标签的情况下，对原始输入添加小干扰，从而愚弄模型。39建议首先选择最易受攻击的单词，然后利用BERT模型替换这些单词，然后生成语法和语义一致的示例。15和37进一步利用BERT替换、插入或合并句子中的单词，以获得更好的攻击性能。

　　【对比】对抗性攻击和FlipDA都在原始样本的附近生成样本，但它们的目标有很大不同。对抗性攻击旨在用label-preserved的样本愚弄模型，而FlipDA旨在用label-fiipped的样本提高任务的性能。此外，对抗性攻击需要生成高质量的样本，而增强的主要关注点不是模糊性，只要它能提高性能。

④Label Flipping标签翻转

　　【概念+以前方法概述+对比】我们的手动标签fiipping增强程序类似于27和14。27旨在减轻学习虚假特征的影响。14.建议使用手动标签绘制，以减少数据集中的系统性差距。相比之下，我们的目标是通过数据增强来改进少数镜头的泛化。此外，我们测量了现有i.i.d.分布式测试集的性能，而27和14创建了更具挑战性/意义的测试集。最重要的是，我们提出了一种自动标记fiipping的方法，而不仅仅是手动操作。

3.Data Augmentation for Few-Shot Learning

3.1环境

　　在这项工作中，我们考虑硬任务和强基线的数据增强。

①Few-Shot NLU Tasks

　　【概念+本文的设置】自然语言理解是一系列需要深入理解输入才能获得高性能的任务。NLU任务范围从共指消解35、因果推理16、文本夹带9、7和词义消歧47到问题回答5、28、74。这些任务通常被描述为将一个或多个句子映射到某个标签。在这项工作中，为了进行系统评估，我们采用了SuperGLUE，它包含一组自然语言理解任务，旨在为当前NLP方法60的难语言理解能力的进展提供基准。根据56，我们只使用了32个训练示例来构建一些few-shot环境，以进一步增加难度。

②Large-Scale Pretrained Models大规模预训练模型

　　【本文的设置】我们的设置假设一个大规模的预训练语言模型11、33、20可用，并且基于预训练模型执行few-shot学习。这是一个关键的设置，因为之前的研究发现，使用强预训练模型作为基线消除了数据增强的好处，而大型预训练模型正变得越来越可用。我们的主要结果是基于超过10亿个参数的DeBERTa 20，我们还提供了关于ALBERT的其他结果，ALBERT的参数较少33。

③用先前的方法进行初步实验

　　【本文的设置】我们对之前的大量方法进行了初步实验，得出了一个结论，即对于这种hard setting，没有一种有效且稳健的方法可用。使用之前的方法，增益是有限的，但有可能进入性能大幅下降的故障模式。更多细节将在第4节中讨论。我们将在以下几节中讨论如何通过提出一种新的数据增强方法FlipDA来应对这一挑战。

3.2要求：Effectiveness有效性和Robustness鲁棒性

　　我们提出了在few-shot学习环境下数据增强方法的关键要求。

　　①有效性：数据扩充方法应该能够显著提高某些任务的性能。

　　②稳健性：数据扩充方法应在所有情况下都不出现故障模式。故障模式在few-shot学习中很常见，其中一些微小的变化可能会导致性能大幅下降。我们认为这应该作为一个关键的评估指标。我们主要考虑两种类型的鲁棒性：（1）鲁棒性W.R.T.基于不同的基础预训练模型和（2）鲁棒性W.R.T.基于不同的任务。

换句话说，我们需要一种数据增强方法，在不影响其他任务的情况下改进某些任务，从而在有效性和鲁棒性方面实现强大的性能。

3.3Effectiveness: Manual Label Flipping Improves Performance手动翻转标签可以提高性能

　　由于之前的方法在我们的初步实验中不够有效和稳健（更多细节请参见第4节中的表5和表6），我们使用手动增强来研究在few-shot环境下，什么样的增强数据对大型预训练模型有利。我们主要研究两种类型的数据扩充，一种是保留标签preserves the labels，另一种是翻转标签fiips the labels。由于手动增强器很费时，我们在本研究中选择了一部分具有代表性的SuperGLUE任务。

　　为了增加label-fiipped数据，应用以下原则，对原始文本样本进行最小修改从而更改标签。扩充方法包括单词的添加、删除和替换。为了扩充label-preserved数据，我们用语义上相似的单词标签替换它们，以保证标签不变。

　　结果如表1所示。在本实验中，我们为每个原始示例生成一个label-fiipped示例和一个label-preserved示例。我们将增强的数据与原始数据结合起来训练模型。我们的实验遵循PET/iPET 56的原始设置，即用三个种子训练每个模式，并将这些“（模式，种子）对”进行集成。我们重复这个集合过程3次，并报告它们的平均值和标准偏差。翻转标签可以显著提高其中三项任务的性能，最多提高10个百分点，而保留标签的效果很小。相比之下，以前的许多数据扩充方法都侧重于创建与原始示例具有相同标签的数据示例。这种矛盾可能解释了以前的增强方法对于硬few-shot环境不够有效的观察结果。

　　表1：手动数据扩充的结果。我们手动编写扩展示例来保留或删除标签。翻转标签可以显著提高CB、RTE和WSC上的性能，最多提高10个百分点，而保留标签的效果很小。（No DA：没有数据扩充时）

　　表2显示了一些label-fiipped扩充示例。我们推测，标签的扩展提供了关于句子中决定标签的重要成分的有用信息。换句话说，增加的样本提供了解释预测的中间监督，这在few-shot中提高了泛化能力。

　　表2：人工增强的标签示例。扩充原则是进行最小的更改，这些更改足以更改标签。黑色表示原始示例，蓝色表示扩展示例。WSC的最后一项任务是共指消解，即从文本中提取所指实体。在这种情况下，label被定义为引用的实体（用红色表示），label-fiipping被定义为修改实体。

　　关于这个人工增强实验有一个警告。虽然我们遵循一定的原则（即，对标签进行最小的更改）并且非常关注增强质量，但手动增强过程不可避免地具有主观性，并且难以重现。作为参考，我们将公开我们的手动增强数据集。更重要的是，我们将在以下章节中设计一种自动方法，用于客观评估和再现性。尽管如此，本节中的发现激发了FlipDA的核心理念。

3.4Robustness: What Contribute to Failure Modes?

　　我们还使用初步实验来分析增强方法通常会出现故障模式的原因。大多数增广方法都基于保留标签的假设，即新生成的数据样本与原始样本具有相同的标签。然而，对于自动方法来说，总是生成在hard NLU setting中保留标签的样本是一个挑战。

　　我们首先检查由以前的自动方法生成的样本，包括EDA和KNN。示例如表4所示。在第一个例子中，通过增广方法删除关键词狂犬病，这不仅会导致语法错误的表达，而且还消除了支持该假设的关键信息。在第二个例子中，假设Titicaca湖中的实体名称被Havasu湖替换，这导致标签从包含变为非包含。如果一个模型在这些噪声增强数据上进行训练，并且保持标签不变，那么性能就会下降。

　　表4：带有错误标签的增强示例。第一个是EDA，第二个是KNN。黑色表示原始示例，蓝色表示扩展示例。第4.5节进一步研究了不对称标签转换现象（例如，从蕴涵到非蕴涵的转换更为常见）。

　　为了进一步验证故障模式的原因，我们在SuperGLUE 59的RTE任务中使用EDA 63进行了实验。在ALBERT和DeBERTa都进入故障模式时，使用EDA会将性能降低几个百分点。为了分析原因，我们在增加的样本中发现了两种类型的噪音：（1）语法错误，导致理解困难；（2）修改关键信息，改变标签（句子真正含义与标签相反了）。我们实验了（1）用原始样本替换这些噪声样本，（2）校正这些噪声样本的标签。请注意，对于标签更正，如果一个样本有严重的语法错误，并且人类无法理解，我们总是将其标记为非蕴涵。这与一个有趣的现象有关，即对于NLU任务，label-fiipping通常是不对称的。我们将在第4.5节中详细讨论这种现象。

　　如表3所示，更换和校正噪声样本的操作都极大地提高了性能，以防止出现故障模式。此外，与不增加数据的基线相比，纠正标签带来了巨大的收益，并带来了良好的性能。这表明保留标签的假设和语法错误是导致失败模式的原因，而标签翻转往往会缓解这一问题。

　　表3:RTE上EDA纠正错误标记的增强数据的性能。Wrong-Deleted指用相应的原始样本替换错误标记的扩增样本，Wrong-Flipped指将错误标记的扩增样本的标签粘贴为正确的标签。结果表明，在这种情况下，使用保留标签假设增加数据会导致性能下降。

　　与第3.3节中的实验类似，本节中的实验涉及人类判断等主观因素。我们想重申，这些实验只是为了证明FlipDA的直觉和洞察力，而不是证明FlipDA的优越性。

3.5FlipDA: Automatic Label Flipping

　　第3.3节和第3.4节中的上述观察结果表明，在有效性和稳健性方面，没有label-preserved假设的标签填充数据增强方法可能有利于few-shot NLU。此外，减少语法错误也是防止失败模式的关键。这推动了我们开发新方法FlipDA，该方法自动生成和选择label-fiipped数据，而不依赖于label-preserving假设。

　　FlipDA主要包括以下步骤，如图1所示：

　　①在不增加数据的情况下训练分类器（例如，微调预训练模型）

　　②生成label-preserved和label-fiipped的增强样本

　　③使用分类器为每个可能的标签选择概率最大的生成样本

　　④使用额外的增强样本重新训练分类器

　　图1：FlipDA的训练流程。我们首先用标准PET训练分类器。然后，我们用preserved/fiipped的标签生成增强数据。第三，利用训练好的分类器对增强后的数据进行过滤。最后，我们用选定的增广数据对模型进行再训练，得到一个新的模型。

　　正式地，给一个few-shot的训练集，xi是文本（可能是一组文本片段或单个片段），是标签。

　　第一步，我们对预训练模型f进行了微调，以适应分类的条件概率例如，模型f可以是预训练的BERT 11或其变体33、11。

　　第二步，我们从原始样本生成增强样本。对于每个训练样本xi，我们生成一组增广样本在我们的实现中，我们首先使用完形填空模式56将x和y组合成单个序列，然后随机屏蔽固定百分比的输入标记。随后，采用预训练的T5 48型填充空白，形成新样本（更多细节见附录a.3）。请注意，使用T5生成增广样本确实引入了额外的知识并减少了语法错误，但天真地使用T5进行增广，而不使用标签翻转和选择，效果并不好（参见第4节中的消融研究）。

　　第三步，在生成扩充样本后，我们使用分类器f计算分数。特别的，在上计算y'，对于每一个，我们构建一个集合：

对于给定的Si,y'，我们从中选出最高的预测概率样本作为我们的样本：

x'是生成集合中的样本，y'是flipped标签，评估概率是模型f计算的在Si,y'中最大的。在选择了(x',y')之后，我们将其加入到扩充训练数据集中。换句话说，我们只在训练集中添加模型f认为fiipped标签是正确（因为最大）的例子。我们将此程序应用于每个可能的标签。如果是Si,y'为空，我们不向训练集中添加任何示例。在实践中，我们发现使用相同的过程，添加标签保留label-preserving概率最高的示例也是有益的。在扩充训练集之后，我们重新训练分类器f以获得最终的模型。

4.实验

　　在本节中，我们将对自然语言理解基准SuperGLUE 60（也称为FewGLUE 56）的few-shot环境进行大量实验。结果表明，FlipDA通过生成label-fiipped数据有效地提高了few-shot性能，同时对不同的预训练模型和任务具有鲁棒性。

4.1实验设置

①数据集

　　与其他NLU基准测试（例如GLUE 61）中的任务相比，SuperGLUE包含复杂的NLU任务，这些任务都是句子对或句子三重任务，需要更多的理解能力。我们在7个超级胶任务中进行了系统实验，包括问题回答（BoolQ 6-MultiRC 29）、文本蕴涵（CB 10-RTE 8）、共指消解（WiC 46）、因果推理（COPA 53）和词义消歧（WSC 36）。每个任务由32个样本序列集、一个测试集、一个验证集和一个额外的未标记集组成。

②Baseline

　　我们将FlipDA与各种数据增强基线方法进行比较。我们不选择基于生成的方法64、70、38，因为它们通常需要大量的训练数据，这不适用于few-shot学习任务。我们还尝试了LAMBADA 1和GPT3Mix 69等方法。因为SuperGLUE任务通常涉及句子对之间的依赖关系，为了使数据有意义，增广句子之间的关联是必要的。然而，我们无法从LAMBADA或GPT3Mix生成格式良好、有意义的数据。例如，在RTE中，我们需要一个前提和一个可能包含在前提中的较短假设，但像GPT3Mix这样的方法通常会以无法控制的方式持续生成长段落。此外，这些方法依赖于启动，这不适用于具有长句的数据集。

我们以七种增强方法作为基线，如下所示。有关实施的更多详细信息，请参阅附录A.2。

　　（1）Synonym Replacement (SR)同义词替换75通过从原始文本（不包括停止词）中随机选择r%的词，并用WordNet（https://wordnet.princeton.edu/）中的同义词替换它们来扩充数据。

　　（2）KNN Replacement（KNN）KNN替换62与同义词替换相似，但不同之处在于将随机选择的单词替换为从GloVe（https://nlp.stanford.edu/projects/glove/）派生的最近的单词之一。

　　（3）Easy Data Augmentation (EDA)简易数据扩充63混合了四种数据扩充方法的输出，包括同义词替换、随机插入、随机交换和随机删除。

　　（4）Back Translation（BT）反译13、57将每一文本翻译成另一种语言，然后反译成原语（我们用谷歌翻译工具实现了两个版本的BT。第一个是BT-10，我们用9种语言（西班牙语、法语、德语、南非荷兰语、俄语、捷克语、爱沙尼亚语、海地克里奥尔语和孟加拉语）获取增强数据，然后将其与原始句子混合。第二个是BT-6，我们使用5种中间语言（西班牙语、法语、德语、俄语和海地克里奥尔语）获取增强数据，然后将其与原始句子混合。）。

　　（5）TinyBERT（T-BERT）25通过随机（概率p）将每个标记替换为BERT基本大小写模型预测的单词（对于单件单词）或Glove衍生的单词（对于多件单词），生成增强数据。

　　（6）T5-MLM 31通过随机（概率p）屏蔽一些令牌，然后用一个大的预训练模型填充空白来生成增强数据。我们使用基于模式的数据完形填空来进一步提高其性能。也就是说，它与我们的FlipDA相同，只保留了标签示例，没有数据选择。

　　（7）MixUP 73，17增加特征空间中的数据，在两个源语句嵌入之间线性插值，并相应地线性插值两个目标嵌入。

③Evaluation Protocol评估协议

　　为了评估有效性，我们使用与PET/iPET 56完全相同的指标（例如准确性、f1分数和精确匹配）。PET是一个基于提示的训练框架，它将所有任务转化为完形填空问题，大大超过了以前的序列分类方法。已经证明，在小数据集上进行微调会出现高方差和不稳定性12，即使实验条件发生微小变化，也会导致剧烈变化。此外，PET/iPET 56还指出，模式的选择会对性能产生很大影响。为了减轻这种影响，我们在多个模式和3次迭代中运行每个实验，最后报告平均性能。

　　此外，我们还探讨了FlipDA对于不同预训练模型和任务的鲁棒性。我们对上述7个不同的复杂任务进行了实验，并对两个不同规模的预训练语言模型进行了实验，分别是ALBERT（ALBERT-xxlarge-v2）和DeBERTa（DeBERTa-xxlarge-v2）。对于稳健性评估，我们提出了一个新的度量，名为MaxDrop（MD），它测量与给定方法在多个任务上不使用增强相比的最大性能下降。具体来说，任务t1，t2，……，tn，方法med和基线base，MD表示为

　　其中scoret，med表示方法med在任务t和分数上的表现；base表示方法base（不使用方法）基于任务t的方法的性能。较小的值表示该方法对各种任务更具鲁棒性，反之亦然。

　　我们遵循与PET/iPET 56相同的实验设置，其中我们采用了一组固定的超参数。对于ALBERT，我们使用与PET\/iPET 56完全相同的超参数。对于DeBERTa，我们根据实际考虑选择了一组固定的超参数。详情请参见附录A.1。

4.2主要结果

　　主要结果见表5和表6。我们可以观察到，在所有数据增强方法中，我们的FlipDA在ALBERT-xxlarge-v2和DeBERTa-v2-xxlarge上的有效性（平均）和鲁棒性（MD）都达到了最佳性能。

　　表5：基于PET和ALBERT-xxlarge-v2的基线方法和FlipDA的性能（基线表示原始PET，无数据增加。下划线表示优于基线的值。粗体表示任务中表现最好的值）。Avg.是分数的平均值，MD（MaxDrop）测量给定方法在多个任务中的最大性能下降。所有结果都是多个模式和3次迭代的平均值。

　　表6：基于PET和DeBERTa-v2-xxlarge的基线方法和FlipDA的性能。基线表示原始PET没有数据增加。下划线表示优于基线的值。FlipDA cls表示与FlipDA中相同的分类器，用于过滤候选增强数据。粗体表示任务中表现最好的任务。波浪线表示使用FlipDA分类器的方法优于原始（不使用FlipDA分类器）版本。Avg.是分数的平均值，MD（MaxDrop）测量给定方法在多个任务中的最大性能下降。所有结果都是多个模式和3次迭代的平均值。

　　具体来说，FlipDA在ALBERT-xxlarge-v2上的平均性能为72.90，在DeBERTa-v2-xxlarge上的平均性能为78.65，这两种性能都比基线高出3个百分点以上。结果有力地表明，FlipDA通过增加高质量数据而不会产生太多副作用，从而有效地提高了few-shot任务的性能。

　　我们不在WiC和WSC上实现回译，因为它们都需要保持句子中的部分单词不变，这是回译无法满足的。同时，我们还观察到，FlipDA在除WSC之外的所有任务上都有改进，而所有其他方法仅适用于少数任务（用下划线表示）。这些观察结果与MaxDrop结果一致，其中FlipDA在ALBERT-xxlarge-v2上的MaxDrop值最低，为0.0，在DeBERTa-v2-xxlarge上为1.28。这意味着FlipDA对不同类型的任务具有鲁棒性，而其他数据增强方法只能对部分任务有效，并且不够鲁棒。

4.3Ablation Study of FlipDA消融实验

　　我们观察到，大多数数据增强方法在一定程度上对某些任务或基本模型表现出有效性，而FlipDA在几乎所有任务上都能实现良好的性能。因此，我们特别感兴趣的是使FlipDA有效且强大的基本原因。在本节中，我们展示了DeBERTa-v2-XXL模型的消融结果。您可以在附录A.6中参考更多关于ALBERT的结果。

　　通常，FlipDA有两个步骤，第一步准备候选增强数据，第二步选择数据和fiips标签。在接下来的实验中，我们首先冻结第二步来研究第一步，然后固定第一步来研究第二步。

①Effectiveness of Pattern-based Data Cloze基于模式的数据完形填空的有效性

　　从获取候选增强数据的角度来看，有几种不同类型的方法，包括基于替换的方法（例如KNN替换和同义词替换）、基于生成的方法（例如回译）、基于特征空间的方法（例如混合），以及我们基于模式的数据完形填空方法（例如FlipDA）。为了找出它们之间的差异，我们进行了大量的消融研究，将通过这些方法获得的候选增强数据输入到同一个分类器中（就像FlipDA使用的那样），看看其他策略是否也能达到与FlipDA类似的性能。表6显示了获得候选增强数据的三类方法的消融结果。请注意，基于特征空间的方法不包括在内，因为该方法不能与分类器组合。

　　FlipDA优于所有带有分类器（即FlipDA cls）的基线方法。FlipDA的平均有效性得分最高，MaxDrop值最小（用粗体表示）。当使用FlipDA分类器结合不同的获取候选增强数据的策略时，仍然无法达到与FlipDA相似的性能，这证明了基于模式的数据完形填空策略与T5是有效的。有几个可能的原因。基于T5的扩充生成语法错误较少的样本。这将在第？节中进一步讨论。此外，T5样式的空白填充可能会产生与标签填充更兼容的样本。

②Effectiveness of FlipDA Classifier FlipDA分类器的有效性

　　现在，我们比较了使用和不使用FlipDA分类器的不同数据增强方法的性能。根据表6中的结果，大多数使用FlipDA分类器的基线方法在有效性（平均值）和鲁棒性（MD）方面都优于原始版本。这表明，FlipDA分类器能够捕捉标签和过滤数据，能够有效地增强高质量数据，并改善few-shot NLU性能。唯一的例外是BT-6和BT-10，FlipDA分类器不能提高性能。这是合理的，因为通过反向翻译增加的数据通常缺乏多样性。使用FlipDA分类器会进一步降低多样性并影响性能。

　　FlipDA分类器带来的改进在BoolQ、RTE和MultiRC上更为一致。这可能是因为这些任务涉及预测一个标记和两个相反的选择。因此，贴标签可能会更频繁。其他一些任务，如COPA和WSC，涉及预测多个令牌，这使得生成标签fiipped数据更加困难。这导致这些任务的实质性改进较少。

4.4Analysis of Label-Flipping v.s. Label-Preservation

　　如表5和表6所示，同时生成label-fiipped和label-preservation数据可以提高性能。接下来的一个问题是，label-fiipped数据和label-preservation数据分别对整体性能有何影响。为了回答这个问题，我们通过运行去耦合label-fiipped数据和label-preservation数据来进行进一步分析。结果如表7所示，其中粗体文本代表最佳执行方法。我们得出的结论是，同时增加label-fiipped和label-preservation数据可以获得最佳的平均性能。此外，带下划线的值表示第二好的性能，其中大多数仅用于增加label-fiipped数据。仅增加label-preservation的数据会导致最差的性能，甚至略低于非增加基线。

　　表7:DeBERTa-v2-xxlarge上label-fiipped数据与label-preservation数据的消融研究。粗体表示表现最好的结果。下划线表示次佳结果。Avg.是分数的平均值，MD（MaxDrop）测量给定方法在多个任务中的最大性能下降。所有结果都是多个模式和3次迭代的平均值。

4.5Analysis of Label Transformation

　　第4.4节证明，与label-preservation的增强数据相比，label-fiipped的增强数据在改善few-shot性能方面更有效。沿着这个方向，更有趣的是，研究哪一个方向的标签翻转能够最大程度地提高few-shot的表现。为了说明这一点，我们对4个任务进行了实验，包括RTE、BoolQ、WiC和MultiRC，它们都是二元分类任务。每个任务有4个标签转换方向。我们进行实验，分别在四个方向上增加数据，并比较它们的有效性。在这里，我们重点讨论使用DeBERTa作为基础模型。有关ALBERT的结果，请参考附录A.6.3。

　　结果如表8所示。不同的任务大致可以分为两类，不对称和对称。对于BoolQ、RTE和WiC来说，在一个方向上进行转换比在另一个方向上更有利。这表明了不对称标签转换的效果。例如，BoolQ旨在回答是非问题。对于一个模型来说，生成没有答案的样本是相对容易的，因为一个小的约束就足以进行预测。然而，在相反的方向上，很难生成答案为“是”的样本，因为模型必须分析整个段落中的所有细节，以确保一致性。因此，难到易可能受益于更高的世代质量。上述推理也适用于RTE（即生成非蕴涵样本比生成蕴涵样本更容易）和WiC（即生成单词具有相同含义的句子更容易）。我们在这三项任务中观察到了类似的效果，即生成难到易的样本更有益。另一方面，对于MultiRC，两个方向之间的差异并不显著。这可能是因为这两个方向在生成难度方面是相似的。

　　表8:DeBERTa-v2-xxlarge上不同标签转换的结果。RTE:A/B表示包含/不包含，表示给定前提是否包含给定假设。BoolQ:A/B表示假/真，代表给定的是非问题的答案。WiC:A/B指的是F/T，表示目标词在两个给定的句子中是否具有相同的含义。MultiRC:A/B表示0/1，表示给定的答案对于给定的问题是否正确。

　　在所有任务中，即使某些方向比其他方向更好，但仅使用一个方向进行增强将影响标签分布。这可能会导致性能低于基准。为了获得最佳性能，全方位增强仍然是必要的。

4.6Analysis of Strategies for Augmented Data Selection

　　我们还对选择增强数据的策略进行了定量分析。增强数据集有几个耦合的属性，这些属性会同时极大地影响few-shot的性能，包括标签分布、多样性、数据质量（因为增强数据有噪声）等。不幸的是，我们发现很难将每个属性解耦，以了解每个属性将如何影响整体性能。

　　因此，通过综合考虑耦合属性，我们提出了四种可行的增广数据选择策略，并对其进行了定量评估。我们提出的四种增广数据选择策略描述如下：

　　①默认策略。这是我们在第3.5节中描述的策略。每个样本可以有多个候选增强样本。我们将通过分类器将候选增强样本划分为不同的类别。对于每个方向，如果存在，我们将选择概率最高的方向。该方法易于实现，不需要任何超参数。

　　②Globel TopK。将所有原始样本中的所有候选增广数据收集在一起，并按其预测概率沿某一标签变换方向进行排序。选择预测概率最高的top-K样本作为方向的增强数据。这相当于实现为选定的top-r%增强样本。

　　③Global TopP。与Global TopK类似，但选择方法不同。选择预测概率高于阈值P的增强数据。

　　④多样的TopK。与Global TopK类似，只是使用了一种机制来平衡原始样本。具体来说，我们首先选择每个原始样本的前1个增强样本（按概率递减排序），然后选择前2个、前3个等，直到选择了K个样本。

　　由于我们的数据选择方法可以被视为一种自训练算法，因此我们在本节中还添加了一种流行的自训练算法Noisy Student 66作为另一个基线。我们将增强后的数据视为未标记的数据，并通过0.1的差分添加噪声。我们在嵌入空间中使用dropout。

　　表9显示了不同策略在多个任务上的结果。对于Global TopP，我们将阈值P设置为0.9或0.95，以更好的为准。对于全局TopK和多样TopK，我们选择前10%或20%的增强示例，以更好的为准。我们的策略优于Noisy Student，因为它利用了第3.3节和第3.4节中讨论的标记fiipping的思想。在我们的四种数据选择策略中，默认策略和多样化的TopK表现最好。这两种方法都通过使用来自不同样本的增强数据来强调多样性。这证明了数据多样性和平衡对于增强数据选择的重要性。

　　表9：在DeBERTa-v2-xxlarge上选择增强数据的不同策略的结果。Avg.是分数的平均值，MD（MaxDrop）测量给定方法在多个任务中的最大性能下降。所有结果都是多个模式和3次迭代的平均值。

4.7Case Study案例研究

　　我们通过表10中的模型在RTE数据集上提供了几个选定的增强案例，以显示我们方法的增强样本质量。我们提供了四种场景中的案例：“entailment” →“entailment”, “entailment” → “not entailment”, “not entailment” → “entailment”, and “not entailment”→ “not entailment”.

　　表10：我们的模型（DeBERTa）在RTE中选择的一些增强示例。黑色表示原始示例，蓝色表示扩展示例。

　　在第一种情况下，我们可以看到T5模式将热带风暴的名称从Debby更改为Maria，并将热带风暴更改为其缩略语hurricane，所有这些更改都会在不影响其标签的情况下产生不同的表达。第二种情况不增加前提，因此，标签为fiips。第三种情况的变化减少到反义词增加，然后标签从“非蕴涵”变为“蕴涵”。第四种情况将将来时态改为一般过去时态，并相应地将四月改为三月，五月改为四月。我们可以看到，改变或保留标签的方式是丰富而自然的。此外，与表4中EDA生成的案例相比，生成质量得到了改善，这也解决了第3.4节中提出的生成质量问题。

5.讨论

①Limitations for the WSC Task

　　WSC任务的局限性如上所述，label-fiipped增强对于few-shot学习性能具有令人鼓舞的优势，但它也有局限性。虽然FlipDA在大多数任务上的性能明显优于现有的基线增强方法，但我们也注意到它对WSC任务的影响略低于一些基线。这是因为，对于消除多标记词义歧义的WSC任务，T5很难生成其label-fiipped case。T5模型不擅长构建不在原始句子中的类似实体，因此无法生成所需的候选示例。我们将基于模式的完形填空算法留给未来的工作。我们预计以实体为中心的预训练模型可能会缓解这个问题。

②Which Few-shot Setting to Use?

　　直到现在，怎样评估few-shot学习的性能仍然是一个开放的问题。目前，主要有两种主流的few-shot setting。第一种是使用一组根据实际考虑确定的预先固定的超参数。第二种类型是构造一个小的开发集dev（例如，32个示例开发集）。然后，它执行网格搜索grid search，并使用小型开发集进行超参数模型选择。我们的工作使用前一种setting。我们分别使用这两种setting进行了初步实验，发现第一种setting相对更稳定。我们相信，如何评估few-shot学习系统也是未来工作的重要研究方向。

③Connection to Contrastive Learning

　　few-shot学习系统因为缺乏样本而容易过度拟合。FlipDA的核心思想是对标签差异的原因提供中间监督，以提高通用性。从这个意义上说，FlipDA和对比学习19,4之间存在联系，对比学习19,4使用数据扩充来生成正面实例，并使用数据集中存在的样本作为负面样本。FlipDA表明，增强样本也可以扮演负样本的角色。虽然之前关于对比学习的研究侧重于使用大数据进行训练，但我们的实验侧重于表明，增加一个小数据集能够改善few-shot的泛化。看看这种联系是否会在对比预训练和few-shot学习两个领域都取得进展，可能会很有趣；例如，为大规模对比预训练生负样本。

6.总结

　　我们建议研究基于大规模预训练模型的few-shot自然语言理解。我们确定了两个关键的需求：有效性和鲁棒性。基于经验上的观点，即label-fiipping提高了few-shot的泛化，我们提出了FlipDA，它利用一个分类器进行自动标签fiipping和数据选择。实验证明了FlipDA的优越性，在有效性和鲁棒性方面都优于以前的方法。在未来，进一步了解在现有数据点附近生成带标签的数据为什么以及如何提高泛化能力至关重要。此外，提高增强数据生成的多样性和质量也是一个重要的长期目标。

标签：增强,Shot,Effective,标签,样本,方法,Few,FlipDA,数据
来源： https://www.cnblogs.com/wpwpwpyo/p/16127060.html