相关方法
作者:互联网
相关方法
F 特征工程和特征选择无疑是数据科学的重要方法。如果您希望您的机器学习模型表现良好,您将需要在我们的特征和目标之间执行相关性,以便我们能够对数据集有一个公平的认识。我们可以将许多不同类型的相关性应用于我们的数据集,通过这些相关性我们可以找到我们想要的结果。对于我们的案例,我们将首先探索熊猫 修正() 功能。
熊猫 修正() 函数可以作为函数应用于 pandas Dataframe。这使您可以在名为 pearson、spearman 和 kendall 的三个方法之间设置相关方法。我们将在这里详细探讨它们中的每一个。
皮尔逊相关:
这里最常用的相关方法是 皮尔逊相关 .这也是 corr() 方法中的默认方法。它对应于两个变量归一化(即除以)标准差的乘积的协方差。通过这种相关性,我们可以找到特征之间的线性关系。所以皮尔逊相关是指特征之间的线性相关。
Pearson correlation
我们可以在 修正() 通过将方法指定为“pearson”的方法。
斯皮尔曼相关性:
这是另一种常用的相关方法,即 Spearman 相关。两个变量之间的 Spearman 相关性等于这两个变量的排名得分之间的 Pearson 相关性; Pearson 相关评估线性关系,Spearman 相关评估单调关系(无论是否线性)。一个 单调关系 两个变量之间是指一个变量的变化通常与另一个变量的特定方向的变化相关联的场景。这可以是线性的或非线性的。
Spearman Correlation
我们可以在中指定方法属性 修正() 到“矛兵”。
肯德尔等级法:
在正常情况下,Kendall 相关性优于 Spearman 相关性,因为其总误差敏感度 (GES) 和渐近方差 (AV) 更小,因此更稳健、更有效。 Kendall 秩相关用于检验数据在按数量排序时排序的相似性。其他类型的相关系数使用观测值作为相关性的基础,肯德尔相关系数使用成对的观测值,并根据成对之间的一致性和不一致模式确定关联强度。
Kendall rank Method
当我们要找到特征之间的单调关系时,它非常有用。在查找分类特征之间的相关性时更好地使用。
双权中相关:
一种基于中值的相似性度量,而不是传统的基于均值,因此对异常值不太敏感。因此,如果数据集和特征有很多异常值,则使用这种相关性比其他相关性更好。这种相关性的整个推导可以推导出为以下 x 和 y 是特征。
要应用这种相关性,我们需要导入一个名为 平果因。 我们可以导入它并使用它 修正() 方法
距离相关:
距离相关性是非线性随机变量之间关联强度的度量。它超越了 Pearson 的相关性,因为它不仅可以发现线性关联,而且可以多维工作。它们是最近引入的向量之间的相关度量,即特征。假设 X 和 Y 是两个向量,那么我们可以使用以下公式计算它们之间的相关性
Distance Correlation
Distance Covariance
我们可以在 python 中使用一个名为 装饰风格。 要使用它,首先我们必须安装这个模块并使用它 dcor.distance_correlation(X,Y) 功能。
结论:
这些是我们可以用来定义特征之间相关性的少数指标,以便我们可以理解我们的数据并再次获得更好的结果。相关性发现是数据处理和数据科学管道中的重要一步,如果我们根据数据使用正确的指标,我们可以获得更好的结果。
对未来阅读的建议:
[
分类问题的评估指标
通过机器学习进行分类有很多应用,因此了解评估非常重要……
媒体网
](/@danishaman202/evaluation-metrices-for-classification-problems-e3cdfec70496)
还有,这个:
[
特征工程详解
特征工程无疑是数据科学不可或缺的一部分。在这里,我们将探讨一些主要和重要的……
媒体网
](/@danishaman202/feature-engineering-in-detail-1e5f4ae2ad12)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明
本文链接:https://www.qanswer.top/17468/19120600
标签:特征,相关性,之间,相关,方法,我们 来源: https://www.cnblogs.com/amboke/p/16660209.html