首页 > 其他分享> > Debiased Contrastive Learning of Unsupervised Sentence Representation无监督句子表示中的对比学习去偏

Debiased Contrastive Learning of Unsupervised Sentence Representation无监督句子表示中的对比学习去偏

2022-05-22 18:04:31 作者：互联网

论文地址：https://arxiv.org/abs/2205.00656v1

Comments:11 pages, accepted by ACL 2022 main conferenceSubjects:Computation and Language (cs.CL)Cite as:arXiv:2205.00656 [cs.CL] (or arXiv:2205.00656v1 [cs.CL] for this version) https://doi.org/10.48550/arXiv.2205.00656

自己也是看了别人的讲解，来源：B站揣摩研习社记录以学习回忆

研究背景

对比学习通过子监督的方式预训练，可以促使模型得到高质量的句子表示。

对比学习一般采用随机组成的batch内其它样本作为负例，这一采样方式可能会导致采样偏差。

batch内其他样本也不一定全是负样本。

由于PLM表示是各向异性的，只使用PLM的表示来优化是不充分的。

（自注：PLM是什么？这里指的是与训练语言模型。这里它提到用PLM表示的空间像一个锥形空间，用这个锥形空间不充分）

对比学习概念 Contrastive learning

同一个样本经过两个不同的数据增强作为一个正样本对。

本文方法

提出了两种方法

1.基于噪声生成负例

缓解各向异性导致的优化不充分问题

2.设计负样本权重

缓解false negative问题（自注：这里false negative到底是什么问题不太明确啊难带是这个？False Negative (简称FN)：判断为负，但是判断错了。（实际为正））

基于噪声生成负例

从高斯分布采样k个噪声向量，作为PLM表示空间外的负例（自注：这里PLM表示空间外是什么意思，还得看看原文）

为了提高负例的质量，利用梯度提升来调整k个噪声负例

设计负样本权重

利用预训练好的SimSCE计算样本表示的相似度，根据相似度设定权重。

自注：小于阈值就说明是个负样本。这里好奇怪啊，你这个本来就是生成更好的句向量，怎么还用到了别人的句向量模型SimCSE

模型方法

实验部分

数据集：STS-语义相似度

预训练模型：BERT RoBERTa

评价方式：语义相似度：余弦相似度于groud truth相似度的Sperman相关洗漱

消融实验

标签：2205.00656,Unsupervised,Debiased,样本,Sentence,负例,相似,自注,PLM
来源： https://www.cnblogs.com/nlpers/p/16298493.html