其他分享
首页 > 其他分享> > 特征工程-1

特征工程-1

作者:互联网

一、特征工程

对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。

以下主要针对结构化数据和非结构化数据进行特征选择。

1 特征归一化

使用特征归一化,消除数据特征之间的量纲影响,使得各项指标处于同一数量级,不同量纲之间具有可比性。

主要针对数值类型特征进行归一化,可以将特征统一到一个大致相同的数值区间。主要使用:

假设有两种数值型特征,\(x_1\)的取值范围为 [0, 10],\(X_2\)的取值范围为[0, 3],于是可以构造一个目标函数符合下图(a)中的等值图。

截屏2022-06-17 23.24.31

在学习速率相同的情况下,\(x_1\)的更新速度会大于\(x_2\),需要较多的迭代才能找到最优解。如果将\(x_1\)和\(x_2\)归一化到相同的数值区间后,优化目标的等值图会变成上图(b)中的圆形,\(x_1\)和\(x_2\)的更新速度变得更为一致,容易更快地通过梯度下降找到最优解。

2 类别型特征

类别型特征(Categorical Feature)主要是指性别(男、女)、血型(A、B、AB、O)等只在有限选项内取值的特征。类别型特征原始输入通常是字符串形式,除了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。

参考:《百面机器学习》、Feature Engine

标签:编码,工程,特征,df,pd,Seattle,SF
来源: https://www.cnblogs.com/qiaofutu/p/16387471.html