其他分享
首页 > 其他分享> > 聚类分析(一):相似性度量

聚类分析(一):相似性度量

作者:互联网

1.欧式距离

   衡量样本间相似性和差异性的方法就是计算两个样本之间的距离。
   对于距离,我们最熟悉的莫过于欧式距离,设\(a=(x_1,x_2,\cdots,x_n),b=(y_1,y_2,\cdots,y_n)\),那么\(a\)和\(b\)的欧式距离定义为:

\[ d(a,b)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2} \tag{1} \]

   欧式距离有许多缺点,比如会受到距离单位的影响。针对这些影响,在计算距离之前需要对数据进行标准化,假设有\(m\)个样本 依次为\(x^{(1)},x^{(2)},\cdots,x^{(m)}\);每个样本有n个特征:\(x^{(j)}=(x_1^{(j)},x_2^{(j)},\cdots,x_n^{(j)})\)。那么第\(k\)个特征的样本均值,样本标准差可表示为:

\[\bar{X}_k=\frac{1}{m}\sum_{i=1}^mx^{(i)}_k \tag{2} \]

\[S_k=[\frac{1}{m-1}\sum_{i=1}^m(x^{(i)}_k-\bar{X}_k)^2]^{1/2} \tag{3} \]

对于每个数据可以进行标准化处理:

\[y_k^{(i)}=\frac{x_k^{(i)}-\bar{X}_k}{S_k} \tag{4} \]

2.马氏距离

   马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示点与一个分布之间的距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是,它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的),并且是尺度无关的(scale-invariant),即独立于测量尺度。(百度抄的)
   马氏距离的定义:
设总体\(G\)的均值向量为\(\mu\),协方差矩阵为\(\Sigma\),\(X\),\(Y\)为总体中的两个样本。
\(X\)和\(Y\)的距离定义为

\[d_m^2(X,Y)=(X-Y)^T\Sigma^{-1}(X-Y). \tag{5} \]

\(X\)和总体\(G\)的距离定义为

\[d_m^2(X,G)=(X-\mu)^T\Sigma^{-1}(X-\mu) \tag{6} \]

3.指标距离

   y有时不仅需要对样品进行分类,也需要对指标进行分类。衡量指标距离常用到的是相似系数,用\(C_{ij}\)表示指标\(i\)和指标\(j\)的相似系数,\(C_{ij}\)的绝对值趋向于0时,表示指标关系越疏远,\(C_{ij}\)的绝对值趋向于1时,表示指标关系越密切。常用到的相似系数有夹角余弦和相关系数。

(1)夹角余弦

从几何图形中的启发而来,定义为:

\[C_{ij}(1)=\frac{\sum_{k=1}^mx_i^{(k)}x_j^{(k)}}{[\sum_{k=1}^m(x_i^{(k)})^2\sum_{k=1}^m(x_j^{(k)})^2]^{1/2}}\tag{7} \]

(2) 相关系数

相关系数可以理解为数据标准化后的夹角余弦。

\[C_{ij}(2)=\frac{\sum_{k=1}^m(x_i^{(k)}-\bar{X}_i)(x_j^{(k)}-\bar{X}_j)}{[\sum_{k=1}^m(x_i^{(k)}-\bar{X}_i)^2\sum_{k=1}^m(x_j^{(k)}-\bar{X}_j)^2]^{1/2}}\tag{8} \]

标签:bar,sum,ij,距离,tag,相似性,frac,聚类分析,度量
来源: https://www.cnblogs.com/bestwangyulu/p/14630009.html