其他分享
首页 > 其他分享> > 2021研一(上学期工作总结)

2021研一(上学期工作总结)

作者:互联网

一 确定方向

 确定了以多标签主动学习为当前阶段的研究方向。

二 了解方向的一些基本概念

在这里插入图片描述

三 目前进展(已完成)

第一,利用基于密度峰值的快速聚类算法
第二,利用无参数概率密度估计的方法,选择高斯核函数和窗口宽度,利用概率密度函数得到样本的统计概率,从而得到每个样本的代表性
第三,从样本属性和样本标签两个角度考虑,加入丰富性约束。为了保证选择的训练样本尽可能的丰富,定义样本之间的属性差异性阈值,从而避免选择相似的样本;为了保证选择的样本所具有的标签足够丰富,利用第一步中softmax预测的标签值,获得每次查询过程的样本丰富性,并定义标签丰富性阈值。当同时满足属性差异性和标签丰富性约束时,该样本才会被查询并加入训练集。
第四,最后利用基于实例差异的多标签学习算法,对剩余样本的标签集进行预测,从而得到所有样本的标签。

下载并做了经典数据集yahoo上Arts,Business 在ML-knn算法的AveragePrecision,Coverage,RankingLoss评价指标。重点学习了论文:基于多标签学习的旋转机械分级复合故障诊断,本论文核心算法HML-KNN算法本质是对ML-KNN的改进,主要包括三点:

1.分级处理,将原本并行的分类模型进行分级处理, 将第一 级分类器得到的估计标签作为新特 征放入第二级分类器中, 充分挖掘标签相关性
2.特征转化,将第一 级的标签信息转化为标签特征. 放入第二级的标签特征并不是原始标签, 而是该样本序列的分位数, 将标签“-1”转化为下四分位数, 标签“1”转化上四分位数. 处理后的标签特征是绝对个性化的, 避免了原始标签造成的过拟合或欠拟合等问题
3.信息阶次升级,: HML-KNN算法是 种考虑了全局标签信息的高阶算法, 第二级的标签与第一级的个标签都有联系. 多标签学习的内核思想就是挖掘标签间的关联性, 提升结果的可解释性. 高阶算法相比 阶算法, 用到了更多的数据信息, 也给出了更多的启示.

四 下一步计划(未完成)

标签:问题,分类,标签,样本,学期,学习,算法,2021,研一
来源: https://blog.csdn.net/lvntai/article/details/122122852