降维概述

2020-11-30 22:59:15 作者：互联网

降维(dimensionality reduction)是指采用某种映射方法，将数据的特征维度从高维转换到低维。那么，为什么要进行降维呢？

首先，我们碰到的很多数据是高维的。虽然原始数据是高维的，但是数据“内在的维数”可能更低。我们来看一个实际的例子。

假设我们现在要借助用户手机的通信数据来对用户价值进行分析。我们的通信数据包括用户入网时间、套餐价格、每月话费、每月流量、每月通话时长、欠费金额和欠费月份数等特征。在这里，每月话费、每月流量和每月通话时长具有相关性，且都表示的是用户的消费能力。欠费金额和欠费月份数也具有很高的相关性，都表示的是用户欠费指数。

在对用户进行价值评估时，我们往往不对具体的特征感兴趣，而是对更抽象的消费能力、欠费指数和用户忠诚度感兴趣。与原始7个维数相比，我们使用消费能力、欠费指数和用户忠诚度3个维度能够更加直观地对用户价值进行刻画。

高维数据给数据分析带来的一个重要挑战是维度灾难(curse of dimensionality)问题，即模型的复杂度和计算量随着维数的增加而指数增长。降维是解决维度灾难问题的一种手段。通过降维，不仅可以降低模型的复杂度，也可以大大减少模型的训练时间。此外，降维还可以作为特征提取的一种手段。我们需要注意特征提取与特征选择的不同，特征选择是指从原始特征中挑选出最有代表性、利用模型预测的特征，与降维得到各个特征的组合还是有差别的。

降维方法从高维到低维映射的方式角度来看，可以分为线性降维和非线性降维。线性降维包括主成分分析(PCA)、线性判别分析(LDA)和独立成分分析(ICA)；非线性降维方法包括基于核函数的降维方法，如核主成分分析(KPCA)、核判别分析(KDA)和核独立成分分析(KICA)，还包括基于流形学习的降维方法，如多维尺度变换(MDS)，局部线性嵌入(LLE)、等度量映射(Isomap)和t分布随机近邻嵌入(t-SNE)等。

标签：每月,用户,降维,概述,维度,欠费,高维
来源： https://blog.csdn.net/weixin_45884316/article/details/110409885