其他分享
首页 > 其他分享> > 关联性分析 & 降维

关联性分析 & 降维

作者:互联网

关联性分析Association Analysis

关联性分析是发现数据内存在的项目间的关联规则(association rule)的过程.

关联规则是购买商品时,或接受服务时一系列的交易或事件其关联性相关的规则.

关联性分析是在marketing中,了解客人的购物车中加入的物品间的关系的意义,也可称为购物车分析(market basket analysis).通过这种分析,高效的卖场陈列,package商品的开发,开展交错销售战略, 策划商品的决定等方面都可以应用.

关联性分析是以包含一个以上的产品或服务的交易内容为开始的.

关联性分析在分析目标上,以制造业中生成的产品或服务为品目(item).

关联性分析的特征:

关联规则的条件

关联规则是和“If A, then B”一样形式表现的.

所有“if-then” 规则并不都是有用的.

两个物品A和B的支持度是全体交易项目中项目A和项目B同时包含的交易的比率

支持度

支持度=Pr(A*B)= 物品A和B同时包括的交易数/ 全体交易数

信赖度

关联性规则“If A, then B”的信赖度是:

信赖度=P(A*B)/P(A)  = 同时包括物品A和B的交易数/仅包括物品A的交易数。

负相关规则中,对结果多使用‘不是’代替‘是’.

例如, “B和C的话,是A”的信赖度是33%的话,“B和c的话,不是A”的信赖度就是67%.

增长度(Lift)

包含3个物品的关联性规则中,信赖度最高的规则是:

“如果购入B和C的话,也购买A”

关联性规则“如果是A的话,则是B”的增长度是:

增长度=信赖度/P(B)=P(B|A)/P(B)=P(A∗B)/(P(A)P(B))=支持度/(P(A)P(B))

增长度=P(购买B的概率,有购买A的条件)/P(购买B的概率,没有条件)

这个值越大,物品A的购买与否对物品B的购买与否产生的影响越大.

物品A和物品B的购买没有相互关联的话,P(B|A)和P(B)是一样的,增长度为1.

关联性分析(Association Analysis) 原理

通过指标选定关联规则(Association rule)标准,

1.确认是否为指定的最小支持度(Minimum support) 以上?

2.是指定的最小置信度(Minimum confidence)以上?

3.提升度(Lift)相当高?

Apriori算法。

降维Dimensionality Reduction

维度的定义:

降维方法

1.特征选择(Feature Selection)

特征选择是整体变量中对判断为有意义的一部分变量进行选择,即去除不需要的

变量,仅选择需要的变量的方法。

代表算法:

1)向前引入法(Forward Selection)

–在Null model中,从最有意义的变量开始,一个一个添加

2)向后剔除法(Backward Elimination)

–在Full model中,所有变量中,从贡献度最低的变量开始,一个一个剔除

特征选择的目的:

对于一个特定的学习算法来说,哪一个特征是有效的是未知的。因此,需要从所有特征中选择出对于学习算法有益的相关特征。而且在实际应用中,经常会出现维度灾难问题。如果只选择所有特征中的部分特征构建模型,那么可以大大减少学习算法的运行时间,也可以增加模型的可解释性。

参考:<https://www.cnblogs.com/purple5252/p/11205500.html>

2.特征提取(Feature Extraction)

特征提取是以整体变量生成判断为有意义的新变量的方式。

生成的变量的数,比原始变量数量少或者相同。

有多种方法,包括PCA,LDA,LSA等等,相关算法则更多,pLSA,LDA,ICA,FA,UV-Decomposition,LFM,SVD等等。这里面有一个共同的算法,那就是鼎鼎大名的SVD。

代表算法:

1)主成分分析(Principal Component Analysis, PCA)

–数据的方差以大的方向为基准,提取新的变量的方法

–非指导学习

2)线性判别式分析(Linear Discriminant Analysis, LDA)

–学习数据分布,建立决策边界,分类数据的方法

–指导学习: 学习时,需要数据的范畴

区别

和feature selection不同之处在于feature extraction是在原有特征基础之上去创造凝练出一些新的特征出来,但是feature selection则只是在原有特征上进行筛选

标签:分析,关联性,变量,降维,算法,规则,物品
来源: https://blog.csdn.net/began2009/article/details/118277716