首页 > 其他分享> > 百面机器学习

百面机器学习

2021-02-19 09:32:06 作者：互联网

文章目录

1. 特征工程
2. 模型评估
3. 经典算法
4. 降维
- PCA
5. 非监督学习
6. 概率图模型
7. 优化算法
8. 采样
9. 前向神经网络
10. 循环神经网络
12. 集成学习

1. 特征工程

归一化

MinMax

Z-Score

在这里插入图片描述
x1x2更新速度变得一致，更容易找到梯度下降的最优解

需要归一化：线性回归、 逻辑回归、 支持向量机、 神经网络
不需要归一化：决策树模型

决策树在进行节点分裂时主要
依据数据集D关于特征x的信息增益比（详见第3章第3节），而信息增益比跟特征
是否经过归一化是无关的

类别特征编码

序号编码（ Ordinal Encoding）、独热编码（ One-hot Encoding）、二进制编码
（ Binary Encoding）

高维组合特征的处理

会把一阶离散特征两两组合，构成高阶组合特征。

一种行之有效的方法是将用户和物品分别用k维的低维向量表示（ k<<m,k<<n）

在这里插入图片描述

组合特征

怎样有效地找到组合特征？

基于决策树的特征组合寻找方法

在这里插入图片描述

文本表示模型

词袋模型（ Bag of Words）
TF-IDF（ Term Frequency-Inverse Document Frequency）
主题模型（ Topic Model）
词嵌入模型（ Word Embedding）

在这里插入图片描述

词嵌入是一类将词向量化的模型的统称，核心思想是将每个词都映射成低维空间（通常K=50～300维）上的一个稠密向量（ Dense Vector）。

Word2Vec

Word2Vec实际是一种浅层的神经网络模型，它有两种网络结构，分别是CBOW（ Continues Bagof Words）和Skip-gram。

Word2Vec是如何工作的？它和LDA有什么区别与联系？

CBOW的目标是根据上下文出现的词语来预测当前词的生成概率
而Skip-gram是根据当前词来预测上下文中各词的生成概率

LDA是利用文档中单词的共现关系来对单词按主题聚类，也可以理解为对“文档-单词”矩阵进行分解，得到“文档-主题”和“主题-单词”两个概率分布。

而Word2Vec其实是对“上下文-单词”矩阵进行学习，其中上下文由周围的几个单词组成，由此得到的词向量表示更多地融入了上下文共现的特征。

2. 模型评估

精确率与召回率的权衡

精确率与召回率的权衡。

hulu视频精确率与召回率的平衡

如果相关结果有100个，即使Precision@5达到了100%， Recall@5也仅仅是5%。

模型的P-R（ PrecisionRecall）曲线

F1是两者的调和平均

回归模型的评价指标

RMSE：

很好地反映回归模型预测值与真实值的偏离程度。但在实际问题中，如果存在个别偏离程度非常大的离群点（ Outlier）时，即使离群点数量非常少，也会让RMSE指标变得很差。

MAPE相当于对误差进行了归一化，降低了个别离群点带来的绝对误差影响

在这里插入图片描述

ROC曲线

ROC曲线是Receiver Operating Characteristic Curve的简称

横坐标为假阳性率（ False Positive Rate， FPR）；纵坐标为真阳性率（ True Positive Rate， TPR）。

在这里插入图片描述
为什么ROC曲线不受样本不均衡问题的影响

在这里插入图片描述 TPR考虑的是第一行，实际都是正例，FPR考虑的是第二行，实际都是负例。因此，在正负样本数量不均衡的时候，比如负样本的数量增加到原来的10倍，那TPR不受影响，FPR的各项也是成比例的增加，并不会有太大的变化。因此，在样本不均衡的情况下，同样ROC曲线仍然能较好地评价分类器的性能，这是ROC的一个优良特性。