编程语言
首页 > 编程语言> > python – 如何为k-means聚类选择初始质心

python – 如何为k-means聚类选择初始质心

作者:互联网

我正在努力在Python中实现k-means聚类.为数据集选择初始质心的好方法是什么?例如:我有以下数据集:

A,1,1
B,2,1
C,4,4
D,4,5

我需要创建两个不同的集群.我如何从质心开始?

解决方法:

您可能想要了解K-means++方法,因为它是选择初始质心的最流行,最简单和最一致的结果方式之一.在这里你有paper.它的工作原理如下:

>从数据点中随机选择一个中心.
>对于每个数据点x,计算D(x),x与已经选择的最近中心之间的距离.
>使用加权概率分布随机选择一个新数据点作为新中心,其中选择点x的概率与D(x)^ 2成比例(您可以使用scipy.stats.rv_discrete).
>重复步骤2和3,直到选择了k个中心.
>现在已经选择了初始中心,继续使用标准的k-means聚类.

标签:python,data-mining,cluster-analysis,k-means,centroid
来源: https://codeday.me/bug/20190829/1759630.html