其他分享
首页 > 其他分享> > Debiased Contrastive Learning of Unsupervised Sentence Representation无监督句子表示中的对比学习去偏

Debiased Contrastive Learning of Unsupervised Sentence Representation无监督句子表示中的对比学习去偏

作者:互联网

论文地址:https://arxiv.org/abs/2205.00656v1

Comments:11 pages, accepted by ACL 2022 main conferenceSubjects:Computation and Language (cs.CL)Cite as:arXiv:2205.00656 [cs.CL] (or arXiv:2205.00656v1 [cs.CL] for this version) https://doi.org/10.48550/arXiv.2205.00656

 

 自己也是看了别人的讲解,来源:B站揣摩研习社 记录以学习回忆

研究背景

对比学习通过子监督的方式预训练,可以促使模型得到高质量的句子表示。

对比学习一般采用随机组成的batch内其它样本作为负例,这一采样方式可能会导致采样偏差。

    batch内其他样本也不一定全是负样本。

    由于PLM表示是各向异性的,只使用PLM的表示来优化是不充分的。

(自注:PLM是什么?这里指的是 与训练语言模型。这里它提到用PLM表示的空间像一个锥形空间,用这个锥形空间不充分)

对比学习概念 Contrastive learning

同一个样本经过两个不同的数据增强作为一个正样本对。

 

 本文方法

 提出了两种方法

1.基于噪声生成负例

  缓解各向异性导致的优化不充分问题

2.设计负样本权重

  缓解false negative问题(自注:这里false negative到底是什么问题 不太明确啊 难带是这个?False Negative (简称FN):判断为负,但是判断错了。(实际为正))

 

基于噪声生成负例

从高斯分布采样k个噪声向量,作为PLM表示空间外的负例(自注:这里PLM表示空间外是什么意思,还得看看原文)

 

 为了提高负例的质量,利用梯度提升来调整k个噪声负例

 

 

设计负样本权重

利用预训练好的SimSCE计算样本表示的相似度,根据相似度设定权重。

 

 自注:小于阈值 就说明是个负样本。这里好奇怪啊,你这个本来就是生成更好的句向量,怎么还用到了别人的句向量模型SimCSE

 

模型方法

 

 实验部分

数据集:STS-语义相似度

预训练模型 :BERT RoBERTa

评价方式:语义相似度:余弦相似度于groud truth相似度的Sperman相关洗漱

 

消融实验

 

标签:2205.00656,Unsupervised,Debiased,样本,Sentence,负例,相似,自注,PLM
来源: https://www.cnblogs.com/nlpers/p/16298493.html