Optimal Transport for knowledge distillation
作者:互联网
OT 的应用场景往往是样本是在Euclidean上,而限制了其在structural data(graph, trees, time series)上的应用,或者跨space上的应用,这些统称为incomparable space情况。
Wassertein distance作为比较概率分布的有用工具,得益于两点:1.它是距离;2. weak convergence of the probability measure.那么可以用样本的pm代替真实的pm.
21-UAI-MOST Multi-Source Domain Adaptation via Optimal Transport for Student-Teacher Learning
摘要:
Multi-Source DA比传统的DA更具有挑战性,因为知识要从几个源于转移到目标域。为此,我们在本文中提出了一个使用OT和模仿学习理论的Multi-Source DA新模型。更具体地说,我们的方法由两个合作代理组成:一个teacher分类器,一个student分类器。teacher分类器是一个 综合的专家,它利用理论上可以保证的领域专家的知识来完美地处理源实例,而student分类器在目标领域中试图模仿teacher分类器在源领域中的行为。我们基于OT开发的严格理论使这种跨域模仿成为可能,同时也有助于缓解data shift和label shift。
介绍:
teacher是在labeled的源样本下完美学习的domain experts的组合,student目标是通过模仿teacher的预测来对unlabeled目标样本进行预测。
标签:Multi,knowledge,distillation,DA,分类器,Source,Optimal,OT,teacher 来源: https://blog.csdn.net/BLvren_/article/details/120739272