首页 > TAG信息列表 > Distillation
【论文笔记】(防御蒸馏)Distillation as a Defense to Adversarial Perturbations against Deep Neural Networks
有关蒸馏 (Distillation)的论文: (2006)Model Compression (2014)Do Deep Nets Really Need to be Deep?--- 论文笔记 (2015)Distilling the Knowledge in a Neural Network--- 论文笔记 摘要 本文提出了防御蒸馏(defensive distillation),主要思想为:使用从DNN中提取的知识来降低Policy Distillation
发表时间:2016(ICLR 2016) 文章要点:这篇文章考虑的情形是从一个RL的policy网络提取策略,迁移到另一个policy网络。其实就是知识迁移(Distillation is a method to transfer knowledge from a teacher model T to a student model),只是这里用到强化里面了。目的是可以用来做模型压缩,multEXPLORATION BY RANDOM NETWORK DISTILLATION
发表时间:2018(ICLR 2019) 文章要点:文章提出了一个random network distillation (RND)的算法,通过比较一个预测网络和一个随机初始化网络的越策误差作为exploration bonus来增加探索。主要思路是说,如果agent去过某个状态了,那么预测误差就会更小,反之就会大。 具体的,先有一个随机网络f,CVPR 2022 | 清华&字节提出FGD:针对目标检测的重点与全局知识蒸馏
https://mp.weixin.qq.com/s/yDkreTudC8JL2V2ETsADwQ 识蒸馏 美索不达米亚平原 CVer 2022-03-09 13:05 收录于话题 #CVPR4个 #CVPR 20224个 #开源项目5个 #目标检测2个 #知识蒸馏1个 点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算(详细)分层强化学习-Random Network Distillation(RND)
原文链接:https://zhuanlan.zhihu.com/p/146309991 EXPLORATION BY RANDOM NETWORK DISTILLATION RND这类文章是基于强化学习在解决Atari游戏中蒙德祖玛的复仇的困境提出的。由于在这类游戏中存在非常稀疏的奖励,Agent在探索利用上存在很大的问题。RND也是第一个使用与人类平CONTRASTIVE REPRESENTATION DISTILLATION复现
paper:https://arxiv.org/pdf/1910.10699.pdf abstract: 问题: knowledge distillation忽视了structural knowledge 实验结果: 新方法产生了优化,有的时候甚至是test中的top 1 method : 目标: 最大化互信息,让不同的输入尽可能映射到不同的值,相同的输入在T和S模式下映射的值尽可【随记】The State Of Knowledge Distillation ForClassification Tasks
目录 0 文章简介 1 引言 2 知识蒸馏 2.1 扩展 3 基准IMPROVE OBJECT DETECTION WITH FEATURE-BASEDKNOWLEDGE DISTILLATION: 论文和源码阅读笔记
paper:https://openreview.net/pdf?id=uKhGRvM8QNH code:https://github.com/ArchipLab-LinfengZhang/Object-Detection-Knowledge-Distillation-ICLR2021 1、摘要: 开篇paper提到kd之所以在目标检测上的失败主要是两个原因:1、前景和背景之间的像素不平衡。 2、缺乏对不同像knowledge distillation 综述
直接上论文survey:https://arxiv.org/pdf/2006.05525v6.pdf 开局提到有数种模型加速的方法: 1、权重共享和剪枝 2、低秩分解 3、转移的紧凑卷积滤波器:这些方法通过转移去除无关紧要的参数或压缩卷积滤波器 4、KD 然后摘要里面说明kd的key problem是如何将teacher模型里面的knowl自监督-Iterative Graph Self-distillation
自监督-Iterative Graph Self-distillation 标签:自监督、图神经、知识蒸馏、图学习、对比学习 动机 在各个领域图是普遍存在,虽然最近的图神经网络 GNN 在节点表示和图表示方面有很大的进展,其都是通过聚合邻居信息结合自身信息并通过非线性变换,但是这些网络的一个关键是需要大量的Optimal Transport for knowledge distillation
OT 的应用场景往往是样本是在Euclidean上,而限制了其在structural data(graph, trees, time series)上的应用,或者跨space上的应用,这些统称为incomparable space情况。 Wassertein distance作为比较概率分布的有用工具,得益于两点:1.它是距离;2. weak convergence of the probabilit知识蒸馏:Distillation
1, 背景:复杂模型不好直接部署,简单模式更容易直接部署在服务器中 目的:模型压缩 解决办法: 1,使用Distillation:将老师(复杂模型)学到的“知识”灌输给学生(简单模型),所谓的知识其实是泛化能力。 2,衡量模型的复杂程度:模型中参数的数量。 模型容量的概念:模型的容量是指它拟合各种函数的能力。Distilling Holistic Knowledge with Graph Neural Networks论文解读
这是一篇ICCV2021的文章,提出了一种新的知识蒸馏方式(Holistic Knowledge Distillation) 原文链接 代码链接 Figure 1为Individual、Relational、Holistic Knowledge Distillation三种不同的知识蒸馏方式的区别.这里根据Relational Knowledge Distillation解读以及Relational【论文笔记】TinyBERT: Distilling BERT for Natural Language Understanding
To accelerate inference and reduce model size while maintaining accuracy, we first propose a novel Transformer distillation method that is specially designed for knowledge distillation (KD) of the Transformer-based models. Then, we introduce a new two-s蒸馏论文七(Variational Information Distillation)
本文介绍一种知识蒸馏的方法(Variational Information Distillation)。 1. 核心思想 作者定义了将互信息定义为: 如上式所述,互信息为 = 教师模型的熵值 - 已知学生模型的条件下的教师模型熵值。 我们有如下常识:当学生模型已知,能够使得教师模型的熵很小,这说明学生模型以及获得了【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation
论文:Relational Knowledge Distillation 【1】关系知识蒸馏,中的关系知识是啥? 如图1,很明显就是字面意思,传统的知识蒸馏是让学生输出与教师模型一致,而本论文提出,输出之间的关系 是要学习的知识 图1 传统的KD loss求法: 其中是一个损失函数,它惩罚老师和学生之间的差【李宏毅2020 ML/DL】P51 Network Compression - Knowledge Distillation | 知识蒸馏两大流派
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的、自己不知道的东西。 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-notes 本节内容综述 本节课由助教Arvin Liu补充一些前沿的技术,李老师讲的,其实有些老了。 首先复习模型压缩的四个流派。 Wh(二十八):Soft-Label Dataset Distillation and Text Dataset Distillation
(二十八):Soft-Label Dataset Distillation and Text Dataset Distillation Abstract 1. Introduction 2. Related Work 2.1 Knowledge Distillation知识蒸馏 2.2 Learning from ‘small’ data 2.3 Dataset Reduction, Prototype Generation, and Summarization 2.4 Gener李宏毅机器学习课程笔记-13.6模型压缩代码实战
目录任务描述1.Architecture Design2.Knowledge Distillation3.Network Pruning4.Weight Quantization数据集描述代码 本文为作者学习李宏毅机器学习课程时参照样例完成homework7的记录。 全部课程PPT、数据和代码下载链接: 链接:https://pan.baidu.com/s/1n_N7aoaNxxwqO03EmV5Bjg深度辨析Curriculum Learning 与 Knowledge Distillation
一、对比Curriculum Learning 与 Knowledge Distillation 1.从结果上看 Curriculum Learning 在相同的训练样本下,相比于一般的训练方法,使用 Curriculum Learning 的方法训练模型将消耗更少的训练时间,训练得到的模型也将拥有更强大的泛化能力;总的来说也就是 Curriculum 让模型PODNet: Pooled Outputs Distillation for Small-Tasks Incremental Learning论文详解ECCV2020
ECCV2020 论文地址:https://doi.org/10.1007/978-3-030-58565_6 代码地址:https://github.com/arthurdouillard/incremental learning.pytorch 目录 1.贡献点 2.方法 2.1 pool类型 2.2 POD(Pooled Outputs Distillation)方法 2.3 LSC(Local Similarity Classifier) 三、实验结果 3.1training data-efficient image transformers & distillation throu
收获一 收获二Be Your Own Teacher 论文阅读
Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self Distillation论文阅读 这是一篇ICCV2019的论文,提升模型精度一直是DL界在追求的目标。一般情况下,在模型结构上面的改进可以归纳为三个方面:depth,width,cardinality。但这样一味地将[论文笔记] (CVPR2019) Structured Knowledge Distillation for Semantic Segmentation
[论文笔记] (CVPR2019) Structured Knowledge Distillation for Semantic SegmentationPrivate Model Compression via Knowledge Distillation 论文笔记
摘要 对智能移动应用的需求飙升需要在移动设备上部署强大的深度神经网络(DNN)。然而,DNN的出色性能众所周知地依赖于越来越复杂的模型,而这反过来又与计算开销的增加相关,远远超过了移动设备的容量。更糟糕的是,应用服务提供商需要收集和利用包含敏感信息的大量用户数据来构建复杂