迁移学习相关总结
作者:互联网
文章目录
根据迁移学习简明手册对迁移学习的相关知识进行简单的总结。
1. 迁移学习的概念
1.1 迁移学习的核心
首先应当明确迁移学习的核心问题,就是找到新问题和原问题之间的相似性,才可以顺利地实现知识的迁移。
1.2 迁移学习的目的
可以有效解决大数据情景下传统机器学习无法解决的四个问题:
- 大数据与少标注之间的矛盾
- 大数据与弱计算之间的矛盾
- 普适化模型与个性化需求之间的矛盾
- 特定应用的需求(冷启动问题)
1.3 负迁移的概念及解决
负迁移指的是,在源域上学习到的知识,对于目标域上的学习产生负面作用。
产生负迁移的原因主要有:
• 数据问题:源域和目标域压根不相似,谈何迁移?
• 方法问题:源域和目标域是相似的,但是,迁移学习方法不够好,没找到可迁移的成分。
杨强教授团队在2015年提出了传递学习迁移的思想,传统迁移学习可以比喻成踩着一块石头过河,传递迁移学习可以比喻成踩着连续的两块石头过河。在2017年又提出了远领域迁移学习,可以比喻成踩着一连串石头过河。
传统迁移学习只有两个领域足够相似才可以完成,而当两个领域不相似时,传递迁移学习却可以利用处于这两个领域之间的若干领域,将知识传递式的完成迁移。这个是很有意义的工作,可以视为解决负迁移的有效思想和方法。
2. 迁移学习的研究领域
- 按照目标域有无标签的原则,可以分为监督迁移学习,半监督迁移学习,无监督迁移学习;
- 按照学习方法进行分类:可以分为基于样本的迁移学习,基于特征的迁移学习,基于模型的迁移学习,基于关系的迁移学习;
- 按特征属性进行分类:同构迁移学习和异构迁移学习;
- 按离线和在线形式进行分类:离线迁移学习和在线迁移学习。
什么是同构和异构?
如果特征语义和维度都相同,那么就是同构;反之,如果特征完全不相同,那么就是异构。举个例子来说,不同图片的迁移,就可以认为是同构;而图片到文本的迁移,则是异构的。
按学习方法进行分类的具体解释
基于实例的迁移,简单来说就是通过权重重用,对源域和目标域的样例进行迁移。就是说直接对不同的样本赋予不同权重,比如说相似的样本,我就给它高权重,这样我就完成了迁移,非常简单非常非常直接。
基于特征的迁移,就是更进一步对特征进行变换。意思是说,假设源域和目标域的特征原来不在一个空间,或者说它们在原来那个空间上不相似,那我们就想办法把它们变换到一个空间里面,那这些特征不就相似了?这个思路也非常直接。这个方法是用得非常多的,一直在研究,目前是感觉是研究最热的。
基于模型的迁移,就是说构建参数共享的模型。这个主要就是在神经网络里面用的特别多,因为神经网络的结构可以直接进行迁移。比如说神经网络最经典的 fnetune 就是模型参数迁移的很好的体现。
基于关系的迁移,这个方法用的比较少,这个主要就是说挖掘和利用关系进行类比迁移。比如老师上课、学生听课就可以类比为公司开会的场景。这个就是一种关系的迁移。
目前最热的就是基于特征还有模型的迁移,然后基于实例的迁移方法和他们结合起来使用。
迁移学习的应用领域包括计算机视觉、文本分类、行为识别、自然语言处理、室内定位、视频监控、舆情分析、人机交互等。
3. 迁移学习的基本知识
迁移学习中有两个基本概念:领域(Domain)和任务(Task)
3.1 领域
领域主要由两部分组成:数据和生成这些数据的概率分布。
源领域(Source Domain): 有知识、有大量数据标注的领域;
目标领域(Target Domain): 要赋予知识、赋予标注的对象;
将知识从源领域传递到目标领域,就完成了迁移。
3.2 任务
任务:学习的目标,由两部分组成,即标签和标签对应的函数。
待完善。。。
标签:总结,基于,特征,源域,领域,学习,迁移 来源: https://blog.csdn.net/dzysunshine/article/details/103068313