首页 > 编程语言> > ML之FE：数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题

ML之FE：数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题

2021-06-15 20:03:15 作者：互联网

特征工程之高维组合特征的处理思路

<x_i,x_j>表示x_i和x_j的组合特征，w_ij的维度等于 |x_i|*|x_j| = 2*2 = 4

但当引入ID类型的特征时，就会出现大规模数据。

(1)、⽤用户ID和物品ID对点击的影响

(2)、用户ID和物品ID的组合特征对点击的影响

若用户的数量=m，物品的数量为n，那么学习的参数的规模mxn。但是可是，在互联⽹网环境下，数量
都可以达到千万量级，几乎无法学习这么大规模的参数。

有效的方法就是将用户和物品分别用k维的低维向量表示（k<<m, k<<n），其中$x_i^’$ 和 $x_j^’$分别表示
x_i和x_j对应的低维向量。

需要学习的参数的规模变成m*k+n*k （实质上就是等价于矩阵分解）。

标签：组合,特征,ML,算法,LoR,点击,FE,ID,高维
来源： https://blog.51cto.com/u_14217737/2905675