论文笔记:What makes instance discrimination good for transfer learning?
作者:互联网
论文笔记:What makes instance discrimination good for transfer learning?
这是一篇很有意思的论文,站在监督/无监督/迁移学习的角度讨论的,不过在这篇论文的阅读之前需要一部分迁移学习的基础来帮助更好的理解论文,那么下面开始把。
abstract:
无监督的视觉基于instance discrimination的pretext task已经取得了巨大的成果。值得注意的事情是最近的基于无监督的pretraining已经超过了有监督的pretraining已经超过了有监督的pretraining,通过finetuning的下游任务例如目标检测和分割。另一个让人吃惊的是不使用标注可能对transfer learning有着较大的帮助。这篇文章主要研究一下几个问题:
- 是什么使instance discrimination pretraining good for transfer learning;
- 在模型中实际学习和转移了什么知识?
- 通过对instance discrimination的研究,我们怎么更好的利用人类的标注在pre-training;
我们的发现回答了这些问题: - transfer learning重要的是low/mid level的representation learning,而不是high level的representation ;
- 第二是intra-category invariance ,在传统的supervised learning 我们强制让一类的图片进行特征提取,这就是传统方式的监督学习弱化转移能力的原因;
- 最后,有监督的pre-training可以通过基于示例的方法,不需要再数据集上有着明显的约束——必须是同一个种类。
Introduction:
背景1:杰出的transfer learning 拥有着unsupervised pretraining in visual recognition。这个pretraining method — MOCO. MOCO 建立一个里程碑(因为超过了同行的supervised learning AP of 46.6与 42.4(pascal voc)的目标检测所进行对比)。Supervised learning是以事实标准进行训练,然后在下游任务上进行微调,而且Supervised 的label是以百万级别的image收集较长时间,但是结果确适得其反,对transfer没有较大的帮助而且可能有害。这也提出了这个问题为什么contrastive pretraining 可以提供更好的transfer表现和supervised pretraining的不足。
背景2:领先的unsupervised learning pretraining method 是有一个instance discrimination 的pretasks,每一个数据集中相同类型的instance的特征都被“拉”出来。不变性(Invariance)是通过encoder不同地low-level image变换而来的,例如(cropping,scaling和color jittering等方法)。由于这些低级特征的不变性,强大的泛化性成就了一些high level的概念例如imagenet 的categories(semantic information).另一方面来说,大部分的方法都是使用的coss-entropy来进行优化,使用cross-entropy将同一class的物体进行drawn closer,将不同一类(class)的物体pulled away.
背景3:为了明白为什么无监督的pretraining 在instance discrimination上的效果这么好,我们剖析unsupervised/supervised 的pretraining methods在下游检测任务。我们的研究开始于一个大众的“信仰”——*high level的semantic information is the key to effective transfer learning.*但是我们发现在不同类型下进行预训练,我们发现transfer performance在pretraining中好像并不受high level的semantic content所影响,即使是训练中的图片的semantic content是否target content相互匹配。另一个方面是篇retraining在合成图片中,合成图片的low level的信息与真实图片的并不一致,使transfer的performance的能力下降了。
得出结论:transfer performance是主要使用的primarily low-level和mid-level的representation。
背景4(问题回答2):我们也研究了supervised与unsupervised learning在目标检测上的对比。第一,detection errors是用detection toolobox所确定的,同时我们发现了有监督的pretraining和无监督的pretraining对比,supervised learning在localization error上更容易受到影响。第二,为了搞明白localization error,我们还做了image在supervised和unsupervised learning的representation的重建效果,结果表明unsupervised的representation更加全面。
结论:supervised pretraining至少在目标检测的下游任务中存在着错位,目标检测需要更加准确的位置信息与更加完整的描绘对象区域。
更具体的说(supervised learning是在imagenet上做分类pretraining,然后下游任务是在做目标检测/语义分割(有 gap))
Introduction总结:
基于以上的研究,我们总结**“在目标检测,不仅仅说是high level的semantic informantion在transfer是不那么重要的,而且还存在上游任务与下游任务存在着检测的错位”**。根据总结出的结论,我们假设出最重要的区别使supervised和unsupervised相比,supervised的预训练更弱的原因是减少了intra-class variation(过分强调one class一致性)。一个简单的假设就是在目标检测和分类任务中,过分强调intra-class variation,会使特征空间却乏独特instance的信息,这些有可能对我们下游任务有着较大的影响。 因此,我们是不是就要去发现新的supervised learning模式,不去强调one class的一致性,在不做这种约束的情况下在training instance的情况下分开正负样本所进行训练。同时,只要在预训练与下游任务存在gap,人们就要注意这个gap。实验部分我们做了两个实验,一个是小批量的识别和面部检测,这两个实验也基本上证实了我们的结论。
A CASE STUDY ON OBJECT DETECTION
我们研究transfer performance 在不同种类的预训练(IMAGENET)在目标检测任务与PASCAL VOC07上。我们使用MOCO的pretrained在unsupervised ,微调网络中的所有层并使用synchronized batch normalization。
2.1 comparsion of detection transfer
我们开始确定unsupervised pretraining 的优势开始于互相对比supervised/unsupervised learning在相同情况下所进行对比。在相同条件下的image augmentation,optimization epoch和finetuning iterations。
同时这也是为了确定supervised pretraining是否会表现出更好的表现在出现了overfitted的情况和使用了不同的图像增强的情况下。
unsupervised pretraining —— Moco-v2 supervised /cross entropy / resnet - 50
table(a) augmentations=> 在color jittering和random grayscaling对supervised learning对supervised learning 预训练有着较大的提升,但是在Gaussian blurning基本没有提升,而且,就算提升了的supervised learning与unsupervised 相比还有这落后(AP50的情况相似)。table(b)可以迭代的看到优化下游任务的具体情况与finetune后的情况(transfer能力),而且通过观察,我们能看出无监督的进度提升比有监督的速度要快一些。
结论:unsupervised pretraining outperform supervised pretraining for detection transfer。
2.2 Effect of Dataset Semantics on Pretraining
不同数据集语义信息对pretraining的影响。Unsupervised learning在线性分类(imagenet上展现了强大的能力),这也体现了feature有着high-level的语义信息。在supervised pretraining中,有一个常识一样的”信仰“,从imagenet(pretraining)to VOC detection(transfer)的最关键的是high-level representation。但是,我们要挑战信仰,通过unsupervised pretraining 在(没有或者较为少语义信息的数据集上进行训练)。这些数据集包括faces scenes,合成street-view image,而且我们也研究了unsupervised pretraining的数据集大小(非尺寸)对transfer表现的大小。
- transfer performance 与 pretraining image data不受太大影响
- supervised pretraining与supervised semantic较为相当,而且当label含有像素级别标注的(例如coco数据集的bbox和synthia所进行的语义分割),会对训练有着负面的影响
- 小的数据集跟能体现出无监督学习的优势
2.3 Task Misalignment and information loss
在目标检测任务之中,high level 的representation是对transfer没有那么必要的,但是这未必能回答 “为什么无监督的预训练的效果优于有监督”,我们注意到了图一(supervised)AP75,AP50之间有一个较大的gap,这也暗示了着supervised pretraining在空间位置精度会减弱。下图对比了三个误差分布(三个示例类别在有监督/无监督的传输结果),我们发现了supervised pretraining的detection errors更多的来自于poor localization。
我们还对pretraining 的图像进行了重建了(iamge feature map),同时使他可视化。在图二我们可以明显地看到,unsupervised network可以呈现出更加完整的reconstruction,但是supervised network损失了许多information例如大量的区域,这是classification的任务,而不是将物体或者图像可视化。因此,我们猜测,我们丢失的对象之外的信息可能组织了supervised learning在目标检测上这类任务的精度。
![在这里插入图片描述](https://www.icode9.com/i/ll/?i=2020122318103336.png?,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0plc3NlXzA4,size_16,co
图二,我们可以看到无监督的重建出了正确的比例尺和位置,而且学习到的特征仍然是十分敏感的,一个可能的解释就是每一个实例尽可能的保证其唯一性,网络会努力保持尽可能多的信息。
一个更好的supervised pretraining method
注释百万级别的Imagenet提供了丰富的语义信息,这也许对下游任务有用。我们传统的方法使用cross-entropy loss来弱化了intra-class variation,会注重一个类别的区域(目标),但是会丢失其他区域的信息。一个更好的supervised pretraining method应该将正负样本的instance的feature分开,而不是将他们全部都变成积极的样本,这样做保证了每一个positive instance独特的information。
Implications for other Transfer learning Scenario
目前的主要见就是将imagenet(pretraining)转移到voc的目标检测上,对于其他的目标检测任务,其任务的性质不同。因此我们的主要研究应用在过拟合的supervised pretraining semantics和怎么改进。
1.小样本的识别
第一个应用常见是小样本,pretext tasks 是基于64累的图像识别,下游任务是图像识别新的五各类。在detection transfer study之中,我们又对比了额三个预训练模式 supervised cross-entropy 2.unsupervised moco-v2和supervised exemplar-v2 通过实验我们我们的无监督学习弱于其他的两个训练模式,这也暗示了上下游任务是一致的。
2.facial landmark prediction
接下来我们看transfer learning scenario 在面部识别到面部识别预测的transfer learning在CELEBA与MAFL, Pretext task 是 CelebA,下游任务是预测五个面部,这个场景的使用体现的是pretext task与下游的GAP.
结论
这篇文章主要还是分析的下游任务object detection和更好的理解unsupervised pretraining,也证明了无监督的优越性,更具体的如下:
PART ONE: transfer learning所主要transfer的是low/mid level的representation,着也暗示了无监督的representation上学习,然后快速转到适应目标检测任务;
PART TWO:从unsupervised pretrained network输出的特征是,因为他们过拟合于high level semantic.
PART THREE:unsupervised 的pretrained network从instance discrimination pretext task拥有丰富的信息,可以用于构建像素级别的图像。
PART FOUR: 对于supervised pretraining,intra-class invariance可以使网络专注于某一类别,忽视无意义的东西分类。
标签:What,good,unsupervised,discrimination,level,pretraining,supervised,learning,tran 来源: https://blog.csdn.net/Jesse_08/article/details/111569755