降维概述
作者:互联网
降维(dimensionality reduction)是指采用某种映射方法,将数据的特征维度从高维转换到低维。那么,为什么要进行降维呢?
首先,我们碰到的很多数据是高维的。虽然原始数据是高维的,但是数据“内在的维数”可能更低。我们来看一个实际的例子。
假设我们现在要借助用户手机的通信数据来对用户价值进行分析。我们的通信数据包括用户入网时间、套餐价格、每月话费、每月流量、每月通话时长、欠费金额和欠费月份数等特征。在这里,每月话费、每月流量和每月通话时长具有相关性,且都表示的是用户的消费能力。欠费金额和欠费月份数也具有很高的相关性,都表示的是用户欠费指数。
在对用户进行价值评估时,我们往往不对具体的特征感兴趣,而是对更抽象的消费能力、欠费指数和用户忠诚度感兴趣。与原始7个维数相比,我们使用消费能力、欠费指数和用户忠诚度3个维度能够更加直观地对用户价值进行刻画。
高维数据给数据分析带来的一个重要挑战是维度灾难(curse of dimensionality)问题,即模型的复杂度和计算量随着维数的增加而指数增长。降维是解决维度灾难问题的一种手段。通过降维,不仅可以降低模型的复杂度,也可以大大减少模型的训练时间。此外,降维还可以作为特征提取的一种手段。我们需要注意特征提取与特征选择的不同,特征选择是指从原始特征中挑选出最有代表性、利用模型预测的特征,与降维得到各个特征的组合还是有差别的。
降维方法从高维到低维映射的方式角度来看,可以分为线性降维和非线性降维。线性降维包括主成分分析(PCA)、线性判别分析(LDA)和独立成分分析(ICA);非线性降维方法包括基于核函数的降维方法,如核主成分分析(KPCA)、核判别分析(KDA)和核独立成分分析(KICA),还包括基于流形学习的降维方法,如多维尺度变换(MDS),局部线性嵌入(LLE)、等度量映射(Isomap)和t分布随机近邻嵌入(t-SNE)等。
标签:每月,用户,降维,概述,维度,欠费,高维 来源: https://blog.csdn.net/weixin_45884316/article/details/110409885