文献阅读笔记【1】:A multi-scheme semi-supervised regression approach.
作者:互联网
download:A multi-scheme semi-supervised regression approach. ----半监督回归
文献阅读笔记【1】:A multi-scheme semi-supervised regression approach.
1. 摘要
文献中提出了一种“多方案半监督回归方法(Multi-scheme Semi-supervised regression approach, MSSRA)”,MSSRA检验了所有学习器输出的一些明确定义的条件,并将其决策提供给元学习器以产生最终的预测。
原文:Our contribution through this work is the proposal of a Multi-scheme Semi-supervised regression approach (MSSRA) that examines some well-defined conditions about the outputs of each contained learner and provides its decisions to a meta-level learner to produce the final predictions.
2. MSSRA
bRgeS表示b个基础回归器,用于框架的挖掘阶段。从初始训练集( D D D)开始,使用标记比率 R R R进行数据的标记。bRegS以自我训练方案部署(自训练算法执行的最大迭代次数被限制为有限的次数(MaxIter)),目的是利用未标记的集合 U , U ⊆ D U,U \subseteq D U,U⊆D扩大初始标记的集合 L , L ⊆ D L,L\subseteq D L,L⊆D。至关重要的是,要进一步限制 L L L子集被相应的 U U U扩大,以确保 L L L子集的一致性。因此,设置了以百分比值衡量的参数(T),以控制每次迭代中新接受的实例相对于初始L的大小所占的百分比。这意味着,在每种产生的算法的启动过程中,T的值仅被评估一次[This means that the value of T is evaluated once, during the starting process of each produced algorithm]。
在进入自我训练方案的迭代过程之前,必须在初始 L L L数据集上训练基础回归器bRegS。随后,在将构成最初形成的bRegS的基本模型应用到 U U U子集之后,每个实例都会生成一个预测矩阵。
此后此矩阵的符号为 M p r M_{pr} Mpr,其中包括对属于 U U U子集的所有实例的预测。此外,初始 L L L和 U U U将分别称为 L 0 L^0 L0和 U 0 U^0 U0,而指针iter将在每次迭代结束时指示当前的标记子集和未标记子集。假设数据集有 n n n个实例,每个实例包含 l l l个特征,则 L , U , M p r L,U,M_{pr} L,U,Mpr的维度可以分别表示为 n L × l , n U × l , n U × b n_L \times l,n_U \times l,n_U \times b nL×l,nU×l,nU×b,并且它们满足关系: n L + n U = n , n L ≪ n U n_L + n_U = n, n_L \ll n_U nL+nU=n,nL≪nU,下一步执行 f d e c i s i o n f_{decision} fdecision,以最可信赖的实例对 M p r M_{pr} Mpr进行排序,以便稍后进行提取并潜在地增强该决策的预测能力。需要一个度量标准来对其实例进行排名,以评估每个实例的b个记录的输出。对于我们的一般框架,选择了预测标签的最小范围(Minimum Range of predicted Labels, MRL)以在 f d e c i s i o n f_{decision} fdecision决策(一种计算软性指标)中使用,它偏向于b个单个回归变量输出最接近的预测的情况。MRL表示如下:
M R L i = m a x ( M p r i ) − m i n ( M p r i ) , 1 ≤ i ≤ n U \mathit{MRL^i} = \mathrm{max}(\mathit{M_{pr}^i}) - \mathrm{min}(\mathit{M_{pr}^i}),\mathit{1 \leq i \leq n_U} MRLi=max(Mpri)−min(Mpri),1≤i≤nU
在对 M p r \mathit{M_{pr}} Mpr进行排序之后,仅选择其记录的顶部 T ∗ s i z e ( L 0 ) T*size(L^0) T∗size(L0),从而根据前面提到的标准,选择的该数据集由具有最高“自信”预测( X M C P X_{MCP} XMCP)的实例集组成。返回“自我训练”循环的最后一个动作是为所有 X M C P X_{MCP} XMCP实例添加单个标签的注释:
L a b e l i = ∑ j = 1 b M p r j b \mathit{Label^i} = \frac{\mathit{\sum_{j=1}^{b}{M_{pr}^j}}}{\mathit{b}} Labeli=b∑j=1bMprj
结束自训练循环,将X个MCP实例从 U i t e r U^{iter} Uiter子集中删除,并添加到 L i t e r L^{iter} Liter子集中。循环的下一个迭代从对新Liter子集的bRegS进行重新训练开始,因为它的基数已经增加了 X M C P X_{MCP} XMCP包含的记录数量,此后,该过程继续进行,直到满足停止标准为止(超出MaxIter或Uiter大小等于零)。最终,自训练过程退出,并且在上一次迭代期间存储了增强的标记集( L L a s t I t e r L^{LastIter} LLastIter)。 选择最终的回归变量(F)并在 L L a s t I t e r L^{LastIter} LLastIter上对其进行训练,以便将其用于未知测试用例的预测。 显而易见,两个不同的回归变量bRegS和F所要求的要求是协调各个预测以及分别在足够高的准确性和快速响应之间进行有效的折衷。
出于这项工作的目的,已经选择了回归变量和参数的特定选择来检查MSSRA的有效性。相信选择强大的回归变量(其预测性能将在接下来要面对的几种情况下更加强大)的原因是,格式化bRegS可能与最小范围准则更一致,来自不同学习家族的三个不同回归变量构成我们的3RegS:SMOReg,Random Forest和M5。根据WEKA工具的实现,它们的参数是默认值。就元回归F而言,它与M5学习器一致,M5学习器是基于模型树并将快速响应和准确的预测性能相结合的著名方法。
3. 核心思想整理
MSSRA核心思想图如上图所示(根据自己的理解绘制而出),MSSRA和COREG相似度较大,MSSRA用了多个回归器(视角),核心是如何选择最自信的实例,核心用到了
M
R
L
MRL
MRL:
M
R
L
i
=
m
a
x
(
M
p
r
i
)
−
m
i
n
(
M
p
r
i
)
,
1
≤
i
≤
n
U
\mathit{MRL^i} = \mathrm{max}(\mathit{M_{pr}^i}) - \mathrm{min}(\mathit{M_{pr}^i}),\mathit{1 \leq i \leq n_U}
MRLi=max(Mpri)−min(Mpri),1≤i≤nU
MSSRA具体过程如下:
1、用初始数据集 L 0 L^0 L0训练初始的基础回归器;
2、循环输入矩阵,并为矩阵的每个实例计算 M R L i MRL^i MRLi;
3、根据 M R L i MRL^i MRLi对输入矩阵进行排序;
4、选择前 T T T个记录作为最自信的实例
5、给这 T T T个记录打上标签预测值 L a b e l i Label^i Labeli,即所有回归器对该标签预测值的平均值。
L a b e l i = ∑ j = 1 b M p r j b \mathit{Label^i} = \frac{\mathit{\sum_{j=1}^{b}{M_{pr}^j}}}{\mathit{b}} Labeli=b∑j=1bMprj
6、将 T T T个最自信实例增添到 L 0 L^0 L0中,从 U 0 U^0 U0中删除这 T T T个实例,循环1-7过程;
7、退出迭代,得到最终的 L l a s t I t e r L^{lastIter} LlastIter,并选择最终的回归器并在 L l a s t I t e r L^{lastIter} LlastIter进行训练,用此回归器去预测其他未标记数据。
4. 算法代码
文献作者已开发出用于WEKA工具的Java软件包,该工具包使该工具能够通过该工具在熟悉的元分类器下称为MSSRegression的GUI上运行MSSRA的能力。
软件包及源代码下载地址:点击下载 .
论文下载地址:点击下载 .
标签:pr,multi,semi,mathit,回归,MRL,实例,supervised,MSSRA 来源: https://blog.csdn.net/m0_37288588/article/details/116769106