首页 > 其他分享> > 机器学习K-Means

机器学习K-Means

2019-06-21 21:03:00 作者：互联网

1.K-Means聚类算法属于无监督学习算法。

2.原理：先随机选择K个质心，根据样本到质心的距离将样本分配到最近的簇中，然后根据簇中的样本更新质心，再次计算距离重新分配簇，直到质心不再发生变化，迭代结束。

3.簇内平方和Inertia：采用欧几里得距离，则一个簇中所有样本点到质心的距离的平方和。追求能够让簇内平方和最小化的质心。

4.用sklearn实现K-Means:from sklearn.cluster import KMeans #导入包

　　　　　　　　　　　 cluster = KMeans(n.clusters = k).fit(X) #进行聚类，实例化

5.重要参数

　　n_clusters：簇的个数，超参数，需要人为设置。

　　init：每个随机数种子运行下的次数，默认k-meas++（使得质心彼此远离），random随机，n维数组（n_clusters,n_features）。

　　n_init：使用不同质心随机初始化的种子来运行k-means算法的次数，默认10次。

　　max_iter：最大迭代次数，默认300。

　　tol：容差，两次迭代间Inertia下降的量，默认10e-4。

6.重要属性

　　cluster.labels_ 查看聚类后簇的类别

　　cluster.cluster_centers_ 查看质心

　　cluster.inertia_ 查看距离平方和

7.模型评估指标：轮廓系数。范围在（-1,1）之间，越大越好。

8.不用Inertia作评估指标的原因：a.Inertia不是有界的

　　　　　　　　　　　　　　 b.易受特征数目影响

　　　　　　　　　　　　　　 c.受超参数k的影响，k越大，Inertia减小

　　　　　　　　　　　　　　 d.对数据分布有假设，假设数据满足凸分布

标签：机器,Means,聚类,平方和,学习,cluster,clusters,质心,Inertia
来源： https://www.cnblogs.com/yujingwei/p/11066783.html