其他分享
首页 > 其他分享> > 【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation

【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation

作者:互联网

论文:Relational Knowledge Distillation

【1】关系知识蒸馏,中的关系知识是啥?

如图1,很明显就是字面意思,传统的知识蒸馏是让学生输出与教师模型一致,而本论文提出,输出之间的关系 是要学习的知识

图1

传统的KD loss求法:

 其中l是一个损失函数,它惩罚老师和学生之间的差异。可以KL散度

【2】咋算的这个关系知识?

图2

如图2,很直观,通过teacher的输出提取出关系\psi(t_1,t_2.....)与学生的求loss

那么其中的\psi(t_1,t_2.....)怎么算的?

就是欧式距离,最终表达式:

 【3】角度关系损失?Angle-wise distillation loss

上面给出的任意两点的关系,本部分是计算任意3点的关系,三点的关系依靠指标:角度来度量,那么损失就是教师与学生输出的角度之间的差距 

 其他计算方式与距离的相同

最终loss: 

 L = L_{task}+\lambda (L_{RKD_D}+L_{RKD_A})

 


​​​​ 

 

 

 

标签:关系,loss,Knowledge,输出,知识,Distillation,简读,Relational
来源: https://blog.csdn.net/magic_shuang/article/details/118720743