2021研一(上学期工作总结)
作者:互联网
一 确定方向
确定了以多标签主动学习为当前阶段的研究方向。
二 了解方向的一些基本概念
- 多类别问题:表示超过2个类别的分类问题,比如:一个人是男和女就是是个二分类问题,多分类问题是在二分类的问题基础上面增加类别,比如一个水果,是梨、苹果还是橙子。此类问题是建立在一个样本只属于一个类别的假设基础上的。
- 多标签问题:这类问题的目的是给每一个样本添加一系列的目标标签。和多分类问题的重要区别就是:每一个标签并非是互斥的。比如一个话题,它可以是政治、金融、教育的,可以是政治、金融的、也可以是教育的、当然也可以不属于上述任何一个内容的。
- 多输出回归问题:可以看出是一个样本的多个回归问题,为一个样本的多个属性预测目标值,比如预测一个位置的温度、湿度等。
- 多任务问题:我的理解是多分类问题的多标签版本。比如上述多标签问题的例子:一个话题,它可以是政治、金融、教育的,三个子问题是三个二分类:这个话题是或不是政治、是或不是金融、是或不是教育的。多任务分类就是把子问题扩展为多分类问题。比如:一个学生,数学分为ABC三个等级、语文分为ABC三个等级、英语分为ABC三个等级,要预测一个学生的语数英是AAA、AAB、BAC等级别就是一个多任务分类问题。这里的数学、语文、英语就是label、ABC就是class
- 监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。
- 非监督学习:直接对输入数据集进行建模,例如聚类。
- 半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数
- 主动学习:当我们获取样本困难,需要领域内专家进行人工标注,且训练规模庞大,时间花费较多,需要使用较少的训练样本获取性能较好的分类器时采用。主动学习是通过一定的算法获取最有用的未标记样本,并交由专家进行标记,优化分类模型,在训练集中已标注数据上学习得到的知识作为先验信息,利用该先验知识对测试分布中未标注数据包含的信息进行判断,选择对模型训练最有力的数据集进行标注,已达到减少分类模型训练过程所需标注代价的目的。
三 目前进展(已完成)
- python学习:基本会使用python代码,会调用python中的包,会实现基本机器学习的各种模型。
- 了解多标签问题的一般处理思路:多标签数据学习方法主要分为两种,一种问题转换法,包括转换为二分类、转换为标签排序、转换为多分类。另一种是算法适应法,包括Lazy learning(如ML-KNN)、Decision tree(如ML-DT)、Kernel learning(如Rank-svm)、Neural network(如BP-MLL)、information-theoretic(如CML)、Spectral analysis(如MLLS)
- 机器学习 :对监督学习中的回归(输出值连续),进行了其中线性回归,岭回归的学习与代码实现,对分类问题(输出值离散)其中的knn(k近邻),决策树,随机森林进行了学习与代码实现。对半监督学习中的svm进行了学习。
- 主动学习:学习了ML-KNN(ML-KNN则是在KNN的基础上进行了改进, 并不是简单的“少数服从多数”, 而是通过贝叶斯准则和 大后验概率计算得到新标签.),BP-MLL等经典多标签适应算法。
- 论文阅读:阅读了7,8篇关于机器学习各类方法的论文(未精读),重点学习了本实验室的论文:页岩气储层预测的多标签主动学习算法,但鉴于数学功底和代码的熟练程度未能实现MAMO算法,只大致理解了MAMO的实现流程。既
第一,利用基于密度峰值的快速聚类算法
第二,利用无参数概率密度估计的方法,选择高斯核函数和窗口宽度,利用概率密度函数得到样本的统计概率,从而得到每个样本的代表性
第三,从样本属性和样本标签两个角度考虑,加入丰富性约束。为了保证选择的训练样本尽可能的丰富,定义样本之间的属性差异性阈值,从而避免选择相似的样本;为了保证选择的样本所具有的标签足够丰富,利用第一步中softmax预测的标签值,获得每次查询过程的样本丰富性,并定义标签丰富性阈值。当同时满足属性差异性和标签丰富性约束时,该样本才会被查询并加入训练集。
第四,最后利用基于实例差异的多标签学习算法,对剩余样本的标签集进行预测,从而得到所有样本的标签。
下载并做了经典数据集yahoo上Arts,Business 在ML-knn算法的AveragePrecision,Coverage,RankingLoss评价指标。重点学习了论文:基于多标签学习的旋转机械分级复合故障诊断,本论文核心算法HML-KNN算法本质是对ML-KNN的改进,主要包括三点:
1.分级处理,将原本并行的分类模型进行分级处理, 将第一 级分类器得到的估计标签作为新特 征放入第二级分类器中, 充分挖掘标签相关性
2.特征转化,将第一 级的标签信息转化为标签特征. 放入第二级的标签特征并不是原始标签, 而是该样本序列的分位数, 将标签“-1”转化为下四分位数, 标签“1”转化上四分位数. 处理后的标签特征是绝对个性化的, 避免了原始标签造成的过拟合或欠拟合等问题
3.信息阶次升级,: HML-KNN算法是 种考虑了全局标签信息的高阶算法, 第二级的标签与第一级的个标签都有联系. 多标签学习的内核思想就是挖掘标签间的关联性, 提升结果的可解释性. 高阶算法相比 阶算法, 用到了更多的数据信息, 也给出了更多的启示.
四 下一步计划(未完成)
- 数学学习:继续并大量进行机器学习中的数学公式的学习
- 论文阅读:多读机器学习与石油,机械,地球勘探等方面结合的论文,不能只做到看了算法,大概了解算法,要自己能代码实现算法,复刻实验,并通过大量阅读实现算法来照葫芦画瓢提出自己新的算法(重点在针对石油,机械等领域的数据集上),并做实验验证算法的优越性。
- 在目前已有的论文阅读量上我发现,偏向实用类型与机器学习算法结合的论文(类似石油类,机械类),很多都是大量小的算法的结合,比如在数据取样时采用一种已有的算法,或对算法进行一点改进,在数据预处理时采用另一种算法,在特征工程,模型建立,甚至模型评估时,可以将很多小的算法相结合,或对已有算法进行一点小改进,只要这样可以得到更好的结果,且有很好的实际意义,就可以作为一个新的算法并提出。这说起来容易,但需要大量算法和论文阅读的支持。所以还是需要很多很多的积累。是一个由量变到质变的过程。
标签:问题,分类,标签,样本,学期,学习,算法,2021,研一 来源: https://blog.csdn.net/lvntai/article/details/122122852